发帖

楼主: 时光永痕

783 1

[数据挖掘新闻] Spark与Hadoop？ [推广有奖]

0关注
14粉丝

svip3

学术权威

12%

（VIP/贵宾）三级

48%

0%

威望: 0 级
论坛币: 26 个
通用积分: 49.7576
学术水平: 4 点
热心指数: 4 点
信用等级: 4 点
经验: 34070 点
帖子: 2731
精华: 0
在线时间: 316 小时
注册时间: 2020-7-21
最后登录: 2024-4-24

楼主

时光永痕

发表于 2020-12-4 19:16:04 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

Spark与Hadoop？
Spark VS Hadoop
Spark和Hadoop是两个不同的框架，具有相同点和不同点。而且，他们两个都有各自的优缺点。因此，哪个更好？火花还是握手？没有确切的答案，因为这些平台进行比较时会有所不同，并且每个人都可能在这两个平台中找到一些新的有用的功能。因此，让我们从这两个的发展历史开始。
Spark和Hadoop是框架，主要目的是分析通用数据和计算机集群的分布。提供内存计算以提高速度和处理数据。Spark在Hadoop集群的顶部运行，并且还可以访问Hadoop的数据存储（HDFS）。
Hadoop呢？Hadoop的主要目标是运行地图/约简作业，因此它是并行的结构化数据处理框架。因此，使用Hadoop的主要目的是框架，该框架具有多种模型的支持，Spark只是 Hadoop的替代形式，而不是Hadoop的替代形式。
选择什么：Spark或Hadoop
如前所述，Spark和两者都有优点和缺点，但是有一些属性，您应该注意。第一个和主要的不同是RAM的容量和使用情况。与Hadoop相比，Spark使用更多的随机访问内存，但是它“吃”更少的Internet或磁盘内存，因此，如果使用Hadoop，最好找到一台具有大量内部存储的功能强大的机器。这个小建议将帮助您使工作过程更加舒适便捷。但是，请不要忘记，您可以动态地更改决策。一切都取决于您的喜好。
Apache Spark和Hadoop Mapreduce之间的下一个区别是，所有Hadoop数据都存储在磁盘上，而Spark数据则存储在内存中。第三个是实现容错的方式之间的差异。Spark使用弹性分布式数据集（RDD），这是一种数据存储模型，可为您提供保证的容错能力，这就是为什么它使网络I / O最小化的原因。如果要查找有关弹性分布式数据集的更多信息，请重新阅读前面的章节。
首先学习什么更好：Hadoop还是Spark？
我认为这个问题是不正确的。如果您完美地学习了其中一种，那么学习另一种就不会有问题。但是对此问题有两种不同的看法。
第一句话说：“学习Hadoop更好，因为它是基础。” 是的，可以肯定，学习Hadoop技术将为您提供许多基础知识，理论和实践技能。您也可能会发现使用它的新东西。
但是第二种观点说：“学习Spark更好，因为它是现代的”。是的，的确如此，Spark具有许多有趣的功能，这些功能将在下一段中进行解释和列出。另外，请不要忘记，Spark只是在HDFS之上运行的框架。
如果您是开发人员，也许您不会感到Hadoop和Spark之间的差异。Spark是一个框架，其中包括使用函数调用启用的并行换向； Hadoop是一个库，您可以在其中通过Java类编写映射/简化作业。
而且，如果您是运行集群的操作员，则唯一要注意的区别是代码部署或配置监视。
Hadoop没有的Apache Spark的原始功能
当我们开始讨论决策时，最好注意一些可以帮助您做出决定的Spark的非常特定的功能，哪种框架更适合您：Apache Spark或So，让我们来了解一下现代框架的最大功能（此外，还有Apache Spark的官方站点中描述了很多功能）：
速度
这确实是Spark的主要功能。它甚至使应用程序即使在磁盘内存中启动，也可以使内存运行速度提高100倍（！），速度提高10倍。另外，Spark中有一种可能允许减少光盘上的读取/写入次数。接下来的功能是Spark将这些中间处理数据存储在内存中。如前所述，Apache Spark使用弹性分布式数据库（RDD）技术，该技术可以帮助将数据透明地存储在内存中，而无需完全使用磁盘存储或仅在需要时使用它。它还有助于减少dics的读/写，因为处理数据是最耗时的。
简单易学
Spark使您可以更快地开发基于Java，Python和Scala的应用程序。因此，现在，以熟悉的编程语言编写和运行应用程序变得更加舒适，并且并行应用程序的构建变得更加便捷。此外，您还有一组内置在框架包中的80个高级运算符。
新旧功能的结合
新版本的Apache Spark除了琐碎的map / reduce之外，还具有一些新功能。新功能包括SQL，流和复杂的分析。此外，您还可以将所有这些功能组合在一个工作流程中。
到处跑
Apache Spark现在支持Hadoop，Mesos，独立和云技术。
这些框架的应用领域
Hadoop的
Hadoop用于处理大数据和快速增长的数据，旨在处理非结构化数据。在使用它之前，您需要考虑到它不能实时访问数据，因为它本身会在请求形成期间处理整个数组数据。
Hadoop用于构建全球智能系统，机器学习，各种数据的相关性分析，统计系统。Hadoop本身不能用作操作数据库。通常，在公司环境中，Hadoop与关系数据库一起使用。为了消除该框架的基本缺点，使用了附加模块和外部应用程序。
内存数据库中的Spark
内存数据库中的Spark是专门用于加速内存中数据的分布式系统。与Hadoop集成后，与Hadoop MapReduce中提供的机制相比，Spark在处理内存中的数据时性能提高了100倍，在磁盘上放置数据时提供了10倍的性能。该引擎可以使用Hadoop，Hadoop YARN在群集中的两个节点上运行，并且可以单独运行。支持存储HDFS，HBase，Cassandra，Hive和任何格式的输入Hadoop（InputFormat）中的数据处理。与MapReduce不同，Spark不会在磁盘上存储中间结果集（如果中间结果集不能太大而无法放入RAM中）。Spark创建RDD（弹性分布式数据集），可以将其全部或部分存储和处理在内存中。RDD没有严格的格式。
题库

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏1 回帖

关键词：Hadoop Spark Park SPAR SPA

[数据挖掘新闻] Spark与Hadoop？ [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[数据挖掘新闻] Spark与Hadoop？ [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群