了解大数据处理引擎

发布时间：2021-06-04 14:32:32 所属栏目：大数据来源：互联网

导读：大数据处理阶段此阶段的目标是使用单个模式来清理，规范化，处理和保存数据。最终结果是具有定义良好的架构的可信数据集。例如Spark之类的处理框架用于在机器集群中并行处理数据。在这里我们需要进行数据的验证，隔离掉不合法的数据，我们需要对不良数据进

大数据处理阶段

此阶段的目标是使用单个模式来清理，规范化，处理和保存数据。最终结果是具有定义良好的架构的可信数据集。例如Spark之类的处理框架用于在机器集群中并行处理数据。在这里我们需要进行数据的验证，隔离掉不合法的数据，我们需要对不良数据进行筛选过滤。对于不规范的数据，我们需要有整理和清洁功能，我们要能够将一些低效的格式入json进行转换。同时我们可能还需要一些标准化的操作，比如对一些数值进行小数点位的精度转化。

盘点大数据处理引擎

大数据处理的最终目的就是创建一个可信数据集，然后下游系统可以依赖此数据源进行业务分析和数据计算。

对于大数据的处理，主要有下面的几个工具引擎。

Apache Hive

它是将SQL请求转换为MapReduce任务链的引擎。它主要实现的功能是对传入的SQL进行排序然后优化排序结果，最终得到高效率的请求结果。2018年它将MapReduce替换为Tez作为搜索引擎。它具有机器学习功能，并且在和其他流行的大数据框架进行集成。

Apache Spark

这是最著名的批处理框架。它是Hadoop生态系统的一部分，是一个托管集群，可提供强大的并性，有着精准的监控和出色的UI。它还支持流处理(结构化流)。基本上，Spark在内存中运行MapReduce作业，其性能是常规MapReduce性能的100倍。它与Hive集成以支持SQL，并可用于创建Hive表，视图或查询数据。它具有很多集成，支持多种格式，并且拥有庞大的社区。所有云提供商都支持它。它可以在YARN上运行作为Hadoop集群的一部分，还可以在Kubernetes和其他平台中使用。它具有许多的第三方库可以使用。

Apache Flink

第一个统一批处理和流传输的引擎，它可以用作像Kafka这样的微服务的主干。它可以作为Hadoop集群的一部分在YARN上运行，它还针对其他平台(如Kubernetes或Mesos)进行了优化。它非常快，并且提供实时流传输，使其成为针对低延迟流处理(尤其是有状态流)的一个比Spark更好的选择。它还具有用于SQL，机器学习等的库。它比Spark更快，是数据流的更好选择。

Apache Storm

是一个免费和开源的分布式实时计算系统，它专注于流传输，是Hadoop生态系统的托管解决方案部分。它具有可扩展性，容错性，可确保您的数据将得到处理，并且易于设置和操作。

（编辑：甘孜站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

终于有人把MPP大数据系	为什么不可忽视建筑物
无代码可重用的人工智	价值变现的关键是组织