Hadoop vs Apache Spark 5件事需要了解

冶天 · 发表于 2015-12-16 11:42:58

您需要登录才可以下载或查看，没有帐号？立即注册

x

讨论大数据的时候，你可能会听到提及Hadoop 和 Apache Spark的话题，这里有一些简单的知识，你需要了解他们之间的不同。

1.他们做的事情不同

Hadoop 和 Apache Spark都是大数据框架中用到的东西，但是他们并不是服务于同样的目的。

Hadoop是本质上是一个分布式数据基础架构，他能够帮你利用商用服务器搭建一个集群，这意味着你不需要购买昂贵的专用硬件就能搭建横跨多个节点的海量数据集。他还能够跟踪索引这些数据，更有力的帮你实现大数据的处理和分析。

Spark是一种数据处理工具，运行在这些分布式数据急群众，他不是用来做分布式存储的。

2.你们可以单独的使用任何一个

Hadoop被称为分布式文件系统，他不仅包含存储组件，同时还有MapReduce处理元件，所以你在处理数据的时候并不一定需要Spark。当然，你也可以使用Spark。

Spark并不是只能在Hadoop中运行，他还可以运行在基于云的数据平台。尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。

帐号		自动登录	找回密码
密码			立即注册