楼主: 时光永痕
1120 0

[数据挖掘新闻] RDD与数据框与数据集之间的区别是什么?为什么数据工程师要关心? [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)八级

13%

威望
0
论坛币
26 个
通用积分
57.2238
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34180 点
帖子
2732
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

楼主
时光永痕 学生认证  发表于 2020-12-11 20:29:27 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
RDD与数据框与数据集之间的区别是什么?为什么数据工程师要关心?
自Apache Spark诞生至今已有11年,令人印象深刻的是,它一直是大数据开发人员的首选。开发人员一直喜欢它提供的简单而强大的API,这些API可以对大数据进行任何类型的分析。
RDDs数据框数据集
最初,他们在2011年提出了RDD的概念,然后在2013年提出了Dataframes,后来在2015年提出了Datasets概念。它们都没有折旧,我们仍然可以使用它们。在本文中,我们将了解并看到它们三个之间的区别。
目录
什么是RDD?
何时使用RDD?
什么是数据框?
什么是数据集?
RDD vs数据框vs数据集?
什么是RDD?
RDD或弹性分布式数据集是Spark的基本数据结构。它是对象的集合,它能够存储在群集的多个节点之间划分的数据,并允许它们并行进行处理。
如果您在RDD上执行多次转换,然后由于任何原因任何节点发生故障,则它是容错的。在这种情况下,RDD能够自动恢复。
开发区有三种创建RDD的方法:
并行化现有数据收集
引用存储的外部数据文件
从现有的RDD创建RDD
何时使用RDD?
在以下情况下,我们可以使用RDD:
当我们想对数据集进行低级转换时。阅读有关RDD转换的更多信息:PySpark执行转换
它不会自动推断提取的数据的架构,我们在创建RDD时需要指定每个数据集的架构。在此处了解如何将架构推断为RDD:使用PySpark构建机器学习管道
什么是数据框?
它是在Spark版本1.3中首次引入的,目的是克服Spark RDD的局限性。Spark Dataframe是数据点的分布式集合,但是在这里,数据被组织到命名列中。它们允许开发人员在RDD不允许的运行时调试代码。
数据框可以将数据读取和写入各种格式,例如CSV,JSON,AVRO,HDFS和HIVE表。它已经过优化,可以处理大多数预处理任务的大型数据集,因此我们不需要自己编写复杂的函数。
它使用催化剂优化器进行优化。如果您想了解有关催化剂优化器的更多信息,我强烈建议您阅读本文:动手教程,使用Spark SQL分析数据
让我们看看如何使用PySpark创建数据框。
什么是数据集?
Spark数据集是Dataframes API的扩展,具有RDD和数据集的优点。它既快速又提供类型安全的接口。类型安全性意味着编译器仅在编译时将验证数据集中所有列的数据类型,如果数据类型不匹配,则将引发错误。
资料集
RDD的用户会发现它与代码有些相似,但是比RDD更快。它可以有效地处理结构化和非结构化数据。
我们尚不能在Python中创建Spark数据集。数据集API仅在Scala和Java中可用
RDD vs数据框vs数据集
开发区数据框数据集
数据表示RDD是没有任何架构的数据元素的分布式集合。它也是组织到命名列中的分布式集合它是Dataframes的扩展,具有类型安全和面向对象的界面等更多功能。
优化没有用于RDD的内置优化引擎。开发人员需要自己编写优化的代码。它使用催化剂优化器进行优化。它还将催化剂优化器用于优化目的。
模式的投影在这里,我们需要手动定义架构。它将自动找出数据集的架构。它还将使用SQL Engine自动找出数据集的架构。
汇总操作RDD比执行数据分组等简单操作的数据帧和数据集都慢。它提供了一个简单的API来执行聚合操作。它比RDD和数据集执行聚合的速度更快。数据集比RDD快,但比数据帧慢。
尾注
在本文中,我们看到了Apache Spark的三个主要API之间的区别。综上所述,如果您要使用丰富的语义,高级抽象,类型安全性,请使用数据框或数据集。如果需要对预处理部分进行更多控制,则可以始终使用RDD。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据工程师 数据工程 数据集 工程师 数据框

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-2-21 01:13