楼主: daazx
2370 12

为什么Spark发展不如Hadoop? [推广有奖]

  • 0关注
  • 53粉丝

VIP

教授

2%

还不是VIP/贵宾

-

TA的文库  其他...

Hadoop与大数据

威望
0
论坛币
50036 个
通用积分
7.1159
学术水平
176 点
热心指数
197 点
信用等级
114 点
经验
11003 点
帖子
446
精华
3
在线时间
1069 小时
注册时间
2007-10-19
最后登录
2021-6-1
毕业学校
深圳大学

楼主
daazx 在职认证  发表于 2014-12-9 20:26:29 |只看作者 |坛友微信交流群|倒序 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

来源:千家网


  一说大数据,人们往往想到Hadoop。这固然不错,但随着大数据技术的深入应用,多种类型的数据应用不断被要求提出,一些Hadoop被关注的范畴开始被人们注意,相关技术也迅速获得专业技术范畴的应用。最近半年来的Spark之热就是典型例子。

  Spark是一个基于RAM计算的开源码ComputerCluster运算系统,目的是更快速地进行数据分析。Spark早期的核心部分代码只有3万行。Spark提供了与HadoopMap/Reduce相似的分散式运算框架,但基于RAM和优化设计,因此在交换式数据分析和datamining的Workload中表现不错。

  进入2014年以后,Spark开源码生态系统大幅增长,已成为大数据范畴最活跃的开源码项目之一。Spark之所以有如此多的关注,塬因主要是因为Spark具有的高性能、高灵活性、与Hadoop生态系统完美融合等叁方面的特点。

  首先,Spark对分散的数据集进行抽样,创新地提出RDD(ResilientDistributedDataset)的概念,所有的统计分析任务被翻译成对RDD的基本操作组成的有向无环图(DAG)。RDD可以被驻留在RAM中,往后的任务可以直接读取RAM中的数据;同时分析DAG中任务之间的依赖性可以把相邻的任务合并,从而减少了大量不准确的结果输出,极大减少了HarddiskI/O,使复杂数据分析任务更高效。从这个推算,如果任务够复杂,Spark比Map/Reduce快一到两倍。

  其次,Spark是一个灵活的运算框架,适合做批次处理、工作流、交互式分析、流量处理等不同类型的应用,因此Spark也可以成为一个用途广泛的运算引擎,并在未来取代Map/Reduce的地位。

  最后,Spark可以与Hadoop生态系统的很多组件互相操作。Spark可以运行在新一代资源管理框架YARN上,它还可以读取已有并存放在Hadoop上的数据,这是个非常大的优势。

  虽然Spark具有以上叁大优点,但从目前Spark的发展和应用现状来看,Spark本身也存在很多缺陷,主要包括以下几个方面:

  –稳定性方面,由于代码质量问题,Spark长时间运行会经常出错,在架构方面,由于大量数据被缓存在RAM中,Java回收垃圾缓慢的情况严重,导致Spark性能不稳定,在复杂场景中SQL的性能甚至不如现有的Map/Reduce。

  –不能处理大数据,单独机器处理数据过大,或者由于数据出现问题导致中间结果超过RAM的大小时,常常出现RAM空间不足或无法得出结果。然而,Map/Reduce运算框架可以处理大数据,在这方面,Spark不如Map/Reduce运算框架有效。

  –不能支持复杂的SQL统计;目前Spark支持的SQL语法完整程度还不能应用在复杂数据分析中。在可管理性方面,SparkYARN的结合不完善,这就为使用过程中埋下隐忧,容易出现各种难题。

  虽然Spark活跃在Cloudera、MapR、Hortonworks等众多知名大数据公司,但是如果Spark本身的缺陷得不到及时处理,将会严重影响Spark的普及和发展。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Hadoop Spark Park SPAR Had 专业技术

已有 1 人评分经验 学术水平 热心指数 收起 理由
Nicolle + 20 + 5 + 5 精彩帖子

总评分: 经验 + 20  学术水平 + 5  热心指数 + 5   查看全部评分

沙发
Nicolle 学生认证  发表于 2014-12-9 20:52:18 |只看作者 |坛友微信交流群
提示: 作者被禁止或删除 内容自动屏蔽

使用道具

藤椅
fdhdd 发表于 2015-1-5 18:17:49 |只看作者 |坛友微信交流群
谁说spark发展不如hadoop。。。spark最近多猛啊
已有 1 人评分经验 论坛币 学术水平 收起 理由
daazx + 20 + 5 + 2 鼓励积极发帖讨论

总评分: 经验 + 20  论坛币 + 5  学术水平 + 2   查看全部评分

使用道具

板凳
lucosax 发表于 2015-1-8 16:29:02 |只看作者 |坛友微信交流群
Spark 才几年?spark 发展不如 hadoop 不正确。正确的是 spark占有率 比 hadoop低。因为大公司的hadoop的技术已经成熟了,而且用新的框架的话成本略高,所以就懒得动弹,但是这是迟早的事情
已有 1 人评分论坛币 热心指数 收起 理由
daazx + 5 + 3 精彩帖子

总评分: 论坛币 + 5  热心指数 + 3   查看全部评分

使用道具

报纸
soccy 发表于 2015-6-15 00:09:49 |只看作者 |坛友微信交流群
新的Spark 1.4集成了R支持,估计会在data science领域掀起一阵旋风。
已有 1 人评分论坛币 收起 理由
daazx + 10 鼓励积极发帖讨论

总评分: 论坛币 + 10   查看全部评分

使用道具

地板
johnchen1024 发表于 2015-8-8 14:48:56 |只看作者 |坛友微信交流群
1. Spark is a good platform for machine learning and data mining with many iterations. The speedup comparing to MapReduce can not 10-100 times faster. For SQL data base applications, the speedup is small.
2. There are a few companies using Spark for production. The maturity for production needs to be improved. However, it is one of most active projects of Apache. The progress is fast.
3. There are not many good books or documents for Spark yet. Three good books are:
a. Data Algorithms: Recipes for Scaling Up with Hadoop and Spark
b. Learning Spark: Lightning-Fast Big Data Analysis
c. Advanced Analytics with Spark: Patterns for Learning from Data at Scale

使用道具

7
johnchen1024 发表于 2015-8-8 15:35:11 |只看作者 |坛友微信交流群
a. Data Algorithms: Recipes for Scaling Up with Hadoop and Spark
https://bbs.pinggu.org/thread-3837655-1-1.html

使用道具

8
johnchen1024 发表于 2015-8-8 15:37:22 |只看作者 |坛友微信交流群
b. Learning Spark: Lightning-Fast Big Data Analysis
https://bbs.pinggu.org/thread-3844863-1-1.html

使用道具

9
johnchen1024 发表于 2015-8-8 15:39:10 |只看作者 |坛友微信交流群
c. Advanced Analytics with Spark: Patterns for Learning from Data at Scale
https://bbs.pinggu.org/thread-3844853-1-1.html

使用道具

10
daazx 在职认证  发表于 2015-8-10 18:46:17 |只看作者 |坛友微信交流群
johnchen1024 发表于 2015-8-8 15:39
c. Advanced Analytics with Spark: Patterns for Learning from Data at Scale
https://bbs.pinggu.org/th ...
分享大数据相关的书籍,将会提升、精华、奖励论坛币至少20,但是需要把帖子发在“Hadoop与大数据”版块:https://bbs.pinggu.org/forum-231-1.html

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 10:16