楼主: CDA网校
1006 0

[其他] PySpark编程 [推广有奖]

管理员

已卖:189份资源

泰斗

3%

还不是VIP/贵宾

-

威望
3
论坛币
118687 个
通用积分
10372.7424
学术水平
278 点
热心指数
286 点
信用等级
253 点
经验
228167 点
帖子
6921
精华
19
在线时间
4377 小时
注册时间
2019-9-13
最后登录
2026-1-6

初级热心勋章

楼主
CDA网校 学生认证  发表于 2022-3-4 14:50:02 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

【你将会学到】
1、spark架构原理及运行模式、代码执行原理、安装部署方式
2、键值对RDD创建方法、常用键值对转换操作
3、PySpark常用模块与类


【课程内容】
    第1节 spark架构原理及运行模式、代码执行原理、安装部署方式-1
    第2节 spark架构原理及运行模式、代码执行原理、安装部署方式-2
    第3节 spark架构原理及运行模式、代码执行原理、安装部署方式-3
    第4节 spark架构原理及运行模式、代码执行原理、安装部署方式-4
    第5节 spark架构原理及运行模式、代码执行原理、安装部署方式-5
    第6节 键值对RDD创建方法、常用键值对转换操作-1
    第7节 键值对RDD创建方法、常用键值对转换操作-2
    第8节 键值对RDD创建方法、常用键值对转换操作-3
    第9节 键值对RDD创建方法、常用键值对转换操作-4
    第10节 键值对RDD创建方法、常用键值对转换操作-5
    第11节 键值对RDD创建方法、常用键值对转换操作-6
    第12节 pyspark.sql、pyspark.streaming、pyspark.ml-1
    第13节 pyspark.sql、pyspark.streaming、pyspark.ml-2
    第14节 pyspark.sql、pyspark.streaming、pyspark.ml-3
    第15节 pyspark.sql、pyspark.streaming、pyspark.ml-4
    第16节 pyspark.sql、pyspark.streaming、pyspark.ml-5


【授课形式】
线上录播


【课程说明】
目前Spark支持多种语言,包括Scala、Python、R、Java。开发者可以根据实际应用环境决定使用哪种语言程序。当我们需要用Spark做程序开发的时候,我们更多的是选择Java,做机器学习时,我们通常会选择Python或R,Spark会很好的集成开发语言的特性,在Spark上使用各种开发语言与开发语言在本地环境使用方法相同。但需要注意的是,Spark的底层开发语言是Scala,因此与Spark兼容性最好的语言实际上是Scala。但Scala语言本身可读性较Python、R这类解释型语言而言,要差很多。
我们还是经常使用Python语言作为Spark操作语言去进行机器学习等任务。原因很简单,Python是数据分析很常用的程序设计语言,程序代码简单、明了、可读性强、生产率高、并且面向对象、属于函数式动态编程语言,且应用领域广泛。加上Python提供了强大的第三方库、第三方工具的接口(如NumPy、Pandas、Matplotlib、Scikit-Learn等),使Python成为数据分析的主要语言之一。因此我们想要在分布式平台流式处理框架上进行海量数据数据分析或机器学习工作,选择Python Spark实际上就是运用Python语言在Spark平台开发程序,使用HDFS分布式存储系统来存储海量数据,再用Python语言调用Pandas和Scikit-Learn等库进行数据分析和机器学习。
Spark还集成了很多功能,常用的Spark功能模块有:专门用来处理流式数据的Spark Streaming模块,用于做机器学习的Spark ML、Spark MLlib模块,以及Spark GraphX、SparkConf、SparkContext、SparkRDD、SparkBroadcast、Accumulator模块等。这些模块使Spark成为效率极高、适用性极强、容错率较高的集群运算系统。
CDA大数据分就业班将PySpark作为重要的内容设置,将会从RDD基础操作入手,带领学员逐步掌握Spark其他常用功能模块的操作与运用。学员完成该阶段学习将能够迅速掌握Spark机器学习的知识,并能够在集群架构上实现数据分析和机器学习建模,极大的保障了海量数据下机器学习工作的顺利开展。


【要求】
有一个稳定的运行环境
有一定的逻辑思维
有一定的分析能力和的洞察力


【本课程包括】
3天的线上录播课程


进入课程:《PySpark编程》

DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Spark Park SPAR SPA scikit-learn

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-7 03:50