人大经济论坛 › 论坛 › 数据科学与人工智能 › 大数据分析 › spark高速集群计算平台 › 【转干货】Spark和Hadoop，孰优孰劣？

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: 小段DM

1680 0

【转干货】Spark和Hadoop，孰优孰劣？ [推广有奖]

0关注
27粉丝

副教授

77%

还不是VIP/贵宾

威望: 0 级
论坛币: -9420105 个
通用积分: 8.7065
学术水平: 18 点
热心指数: 11 点
信用等级: 16 点
经验: 20062 点
帖子: 1017
精华: 0
在线时间: 517 小时
注册时间: 2015-12-12
最后登录: 2017-12-19

楼主

小段DM 发表于 2015-12-22 09:23:30 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

Spark和Hadoop，孰优孰劣？

Spark 已经取代 Hadoop 成为最活跃的开源大数据项目。但是，在选择大数据框架时，企业不能因此就厚此薄彼。近日，著名大数据专家 Bernard Marr 在一篇文章中分析了Spark和Hadoop的异同。

Hadoop和Spark均是大数据框架，都提供了一些执行常见大数据任务的工具。但确切地说，它们所执行的任务并不相同，彼此也并不排斥。虽然在特定的情况下，Spark据称要比Hadoop快100倍，但它本身没有一个分布式存储系统。而分布式存储是如今许多大数据项目的基础。它可以将PB级的数据集存储在几乎无限数量的普通计算机的硬盘上，并提供了良好的可扩展性，只需要随着数据集的增大增加硬盘。因此，Spark需要一个第三方的分布式存储。也正是因为这个原因，许多大数据项目都将Spark安装在Hadoop之上。这样，Spark的高级分析应用程序就可以使用存储在HDFS中的数据了。

与Hadoop相比，Spark真正的优势在于速度。Spark的大部分操作都是在内存中，而Hadoop的MapReduce系统会在每次操作之后将所有数据写回到物理存储介质上。这是为了确保在出现问题时能够完全恢复，但Spark的弹性分布式数据存储也能实现这一点。

另外，在高级数据处理（如实时流处理和机器学习）方面，Spark的功能要胜过Hadoop。在Bernard看来，这一点连同其速度优势是Spark越来越受欢迎的真正原因。实时处理意味着可以在数据捕获的瞬间将其提交给分析型应用程序，并立即获得反馈。在各种各样的大数据应用程序中，这种处理的用途越来越多，比如，零售商使用的推荐引擎、制造业中的工业机械性能监控。Spark平台的速度和流数据处理能力也非常适合机器学习算法。这类算法可以自我学习和改进，直到找到问题的理想解决方案。这种技术是最先进制造系统（如预测零件何时损坏）和无人驾驶汽车的核心。Spark有自己的机器学习库 MLib ，而Hadoop系统则需要借助第三方机器学习库，如 Apache Mahout 。

实际上，虽然Spark和Hadoop存在一些功能上的重叠，但它们都不是商业产品，并不存在真正的竞争关系，而通过为这类免费系统提供技术支持赢利的公司往往同时提供两种服务。例如，Cloudera就既提供Spark服务也提供Hadoop服务，并会根据客户的需要提供最合适的建议。

Bernard认为，虽然Spark发展迅速，但它尚处于起步阶段，安全和技术支持基础设施方还不发达。在他看来，Spark在开源社区活跃度的上升，表明企业用户正在寻找已存储数据的创新用法。

CDA大数据分析师3月脱产班12月25日开课了 http://cda.pinggu.org/bigdata-jy.html

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏1 回帖

关键词：Hadoop Spark Park SPAR Had hadoop是什么 hadoop原理 hadoop基础 hadoop实战 hadoop峰会

【转干货】Spark和Hadoop，孰优孰劣？ [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

【转干货】Spark和Hadoop，孰优孰劣？ [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群