人大经济论坛 › 论坛 › 数据科学与人工智能 › 大数据分析 › spark高速集群计算平台 › 【干货】关于为什么Spark的发展速度比Hadoop更快的原因和 ...

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: 小段DM

3346 0

【干货】关于为什么Spark的发展速度比Hadoop更快的原因和趋势 [推广有奖]

0关注
27粉丝

副教授

77%

还不是VIP/贵宾

威望: 0 级
论坛币: -9420105 个
通用积分: 8.7065
学术水平: 18 点
热心指数: 11 点
信用等级: 16 点
经验: 20062 点
帖子: 1017
精华: 0
在线时间: 517 小时
注册时间: 2015-12-12
最后登录: 2017-12-19

楼主

小段DM 发表于 2015-12-17 09:40:29 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

关于为什么Spark的发展速度比Hadoop更快的原因和趋势

原因

1. Spark非常容易使用。Spark Notebook，Spark与Java/Scala/Python/R的互操作性都做得非常好。而Hadoop的早期用户和社区的主要贡献者都来自于大公司，服务于资深用户。资深用户更关注功能是否完善、系统是否稳定，而易用性就不是主要的考虑因素。

2. Spark是为交互式使用设计的。这体现在聚焦于规模较小的数据处理应用，因而使用内存来加速变得非常重要。这也体现在剔除很多不必要的开销，例如JVM启动时间、polling/heartbeat interval、用来防止出现Self-DDOS的sleep/wait。而Hadoop社区的决定者很多都是大公司。在那里，超大规模的数据计算是最重要的，而几秒钟的启动时间和等待都是无关紧要的。

3. Spark的Committer非常注重发展外部的代码贡献者。一开始，辅导外部的代码贡献者来提交patch可能比Committer自己写code提交patch更慢，但是辅导外部的代码贡献者是一个很好的投资，可以有长期的回报。显然，这个策略在Spark身上非常奏效。

相对来说，Spark的技术比较新，所以运维稳定性、调试等方面不及Hadoop的相关技术。今年Berkeley AMPLAB就专门在USENIX NSDI 2015上发表了一篇文章 Making Sense ofPerformance in Data Analytics Frameworks 来讲述如何调试Spark的性能问题。

趋势

1. Hadoop技术进一步的成熟。Hadoop最近的比较大的进步都是在运维稳定性和性能上的，例如HA（High Availablility）for YARN ResourceManager，Rolling Upgrades，Erasure Coding Support inside HDFS 等等。相对来说，用户可用的新功能较少。

2. Spark在Machine Learning和Data Science/Statistics用户中的普及非常快。Spark Notebook，MLLib，SparkR 是Spark的几个杀手级的产品。SparkSQL中的DataFrame也是一个非常有效的功能，但SparkSQL在Data Warehouse领域（如ETL，BI等）的前景还有待进一步的观察，因为SparkSQL毕竟是后来者。

3. Spark和Hadoop的生态系统在融合。这点可以参见Hadoop & Spark,Perfect Together。Hadoop和Spark各自都有很多子项目。对于一个大数据的高级用户来说，他/她所做的决定一定不是”我到底用Hadoop还是Spark“，而是"我到底用Hadoop的哪些组件和Spark的哪些组件"。所以，对Hadoop和Spark的各个子项目的了解变得非常重要。

CDA大数据分析师3月脱产班12月25日开课了 http://cda.pinggu.org/bigdata-jy.html

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：Hadoop Spark 发展速度 SPAR Park 大数据大数据时代价值大数据大数据应用大数据分析

【干货】关于为什么Spark的发展速度比Hadoop更快的原因和趋势 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

【干货】关于为什么Spark的发展速度比Hadoop更快的原因和趋势 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群