发帖

楼主: 小段DM

3125 0

【干货】Hadoop与Spark的比较 [推广有奖]

0关注
27粉丝

副教授

77%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: -9420107 个
通用积分: 8.7065
学术水平: 18 点
热心指数: 11 点
信用等级: 16 点
经验: 20059 点
帖子: 1016
精华: 0
在线时间: 517 小时
注册时间: 2015-12-12
最后登录: 2017-12-19

楼主

小段DM 发表于 2015-12-17 09:53:29 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

Hadoop与Spark的比较

Hadoop与Spark相比，两者之间有哪些异同点？各自的优势是什么？此外，Hadoop与Spark都支持容错性，Spark在容错性方面是否比Hadoop更具优越性？

在基本原理上：Hadoop和Spark最大的区别在于Hadoop是基于磁盘的大数据批处理系统；而Spark是基于弹性分布式数据集（RDD，显式地将数据存储到磁盘和内存中）。在模型上，Hadoop以MapReduce模型为核心，而Spark除了map和reduce函数操作之外的很多函数操作，诸如join、groupBy、reduceByKey等。

在优势上，Hadoop可以处理超大规模的数据，适合日志分析挖掘等较少迭代的长任务需求，同时Hadoop很好的结合了数据的分布式存储和计算；而Spark适合数据挖掘，机器学习等多轮迭代式计算任务，Spark本身并没有提高数据的分布式存储解决方案，还需要依赖HDFS等第三方存储系统。

在容错性上需要考虑两个方面，第一就是数据容错性；第二就是节点容错性。Hadoop在数据容错性上考虑的很全面，从HDFS本身的冗余复制机制，到安全模式，数据校验，元数据保护，快照机制等，在节点容错性上Hadoop从资源调度层次来解决。而Spark在数据容错性上是建立在RDD概念之上，当一个节点出现故障时，Spark会根据存储信息重新构造数据集。因此Spark在容错性上并不比Hadoop具有优越性，应该是在容错性上Hadoop考虑的更全面，而Spark更加在意处理数据的效率和响应时间。

CDA大数据分析师3月脱产班12月25日开课了 http://cda.pinggu.org/bigdata-jy.html

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：Hadoop Spark Park SPAR Had 大数据大数据时代价值大数据大数据应用大数据分析

【干货】Hadoop与Spark的比较 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

【干货】Hadoop与Spark的比较 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群