楼主: 时光永痕
783 1

[数据挖掘新闻] Spark与Hadoop? [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

48%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-24

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
Spark与Hadoop?
Spark VS Hadoop
Spark和Hadoop是两个不同的框架,具有相同点和不同点。而且,他们两个都有各自的优缺点。因此,哪个更好?火花还是握手?没有确切的答案,因为这些平台进行比较时会有所不同,并且每个人都可能在这两个平台中找到一些新的有用的功能。因此,让我们从这两个的发展历史开始。
Spark和Hadoop是框架,主要目的是分析通用数据和计算机集群的分布。提供内存计算以提高速度和处理数据。Spark在Hadoop集群的顶部运行,并且还可以访问Hadoop的数据存储(HDFS)。
Hadoop呢?Hadoop的主要目标是运行地图/约简作业,因此它是并行的结构化数据处理框架。因此,使用Hadoop的主要目的是框架,该框架具有多种模型的支持,Spark只是 Hadoop的替代形式,而不是Hadoop的替代形式。
选择什么:Spark或Hadoop
如前所述,Spark和两者都有优点和缺点,但是有一些属性,您应该注意。第一个和主要的不同是RAM的容量和使用情况。与Hadoop相比,Spark使用更多的随机访问内存,但是它“吃”更少的Internet或磁盘内存,因此,如果使用Hadoop,最好找到一台具有大量内部存储的功能强大的机器。这个小建议将帮助您使工作过程更加舒适便捷。但是,请不要忘记,您可以动态地更改决策。一切都取决于您的喜好。  
Apache Spark和Hadoop Mapreduce之间的下一个区别是,所有Hadoop数据都存储在磁盘上,而Spark数据则存储在内存中。第三个是实现容错的方式之间的差异。Spark使用弹性分布式数据集(RDD),这是一种数据存储模型,可为您提供保证的容错能力,这就是为什么它使网络I / O最小化的原因。如果要查找有关弹性分布式数据集的更多信息,请重新阅读前面的章节。
首先学习什么更好:Hadoop还是Spark?
我认为这个问题是不正确的。如果您完美地学习了其中一种,那么学习另一种就不会有问题。但是对此问题有两种不同的看法。
第一句话说:“学习Hadoop更好,因为它是基础。” 是的,可以肯定,学习Hadoop技术将为您提供许多基础知识,理论和实践技能。您也可能会发现使用它的新东西。
但是第二种观点说:“学习Spark更好,因为它是现代的”。是的,的确如此,Spark具有许多有趣的功能,这些功能将在下一段中进行解释和列出。另外,请不要忘记,Spark只是在HDFS之上运行的框架。
如果您是开发人员,也许您不会感到Hadoop和Spark之间的差异。Spark是一个框架,其中包括使用函数调用启用的并行换向; Hadoop是一个库,您可以在其中通过Java类编写映射/简化作业。
而且,如果您是运行集群的操作员,则唯一要注意的区别是代码部署或配置监视。
Hadoop没有的Apache Spark的原始功能
当我们开始讨论决策时,最好注意一些可以帮助您做出决定的Spark的非常特定的功能,哪种框架更适合您:Apache Spark或So,让我们来了解一下现代框架的最大功能(此外,还有Apache Spark的官方站点中描述了很多功能):  
速度
这确实是Spark的主要功能。它甚至使应用程序即使在磁盘内存中启动,也可以使内存运行速度提高100倍(!),速度提高10倍。另外,Spark中有一种可能允许减少光盘上的读取/写入次数。接下来的功能是Spark将这些中间处理数据存储在内存中。如前所述,Apache Spark使用弹性分布式数据库(RDD)技术,该技术可以帮助将数据透明地存储在内存中,而无需完全使用磁盘存储或仅在需要时使用它。它还有助于减少dics的读/写,因为处理数据是最耗时的。
简单易学
Spark使您可以更快地开发基于Java,Python和Scala的应用程序。因此,现在,以熟悉的编程语言编写和运行应用程序变得更加舒适,并且并行应用程序的构建变得更加便捷。此外,您还有一组内置在框架包中的80个高级运算符。
新旧功能的结合
新版本的Apache Spark除了琐碎的map / reduce之外,还具有一些新功能。新功能包括SQL,流和复杂的分析。此外,您还可以将所有这些功能组合在一个工作流程中。
到处跑
Apache Spark现在支持Hadoop,Mesos,独立和云技术。
这些框架的应用领域
Hadoop的
Hadoop用于处理大数据和快速增长的数据,旨在处理非结构化数据。在使用它之前,您需要考虑到它不能实时访问数据,因为它本身会在请求形成期间处理整个数组数据。
Hadoop用于构建全球智能系统,机器学习,各种数据的相关性分析,统计系统。Hadoop本身不能用作操作数据库。通常,在公司环境中,Hadoop与关系数据库一起使用。为了消除该框架的基本缺点,使用了附加模块和外部应用程序。
内存数据库中的Spark
内存数据库中的Spark是专门用于加速内存中数据的分布式系统。与Hadoop集成后,与Hadoop MapReduce中提供的机制相比,Spark在处理内存中的数据时性能提高了100倍,在磁盘上放置数据时提供了10倍的性能。该引擎可以使用Hadoop,Hadoop YARN在群集中的两个节点上运行,并且可以单独运行。支持存储HDFS,HBase,Cassandra,Hive和任何格式的输入Hadoop(InputFormat)中的数据处理。与MapReduce不同,Spark不会在磁盘上存储中间结果集(如果中间结果集不能太大而无法放入RAM中)。Spark创建RDD(弹性分布式数据集),可以将其全部或部分存储和处理在内存中。RDD没有严格的格式。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Hadoop Spark Park SPAR SPA

沙发
albertwishedu 发表于 2022-9-8 21:59:34 |只看作者 |坛友微信交流群

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 18:29