人大经济论坛 › 论坛 › 数据科学与人工智能 › 大数据分析 › spark高速集群计算平台 › 第15课：RDD创建内幕

发帖

楼主: 无量天尊Spark

1967 0

第15课：RDD创建内幕 [推广有奖]

1关注
8粉丝

硕士生

34%

还不是VIP/贵宾

威望: 0 级
论坛币: 305 个
通用积分: 0
学术水平: 5 点
热心指数: 14 点
信用等级: 2 点
经验: 23032 点
帖子: 73
精华: 0
在线时间: 135 小时
注册时间: 2016-2-27
最后登录: 2016-9-11

楼主

无量天尊Spark 发表于 2016-5-13 18:19:19 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

一、RDD的创建方式

Spark应用程序运行过程中，第一个RDD代表了Spark应用程序输入数据的来源，之后通过Trasformation来对RDD进行各种算子的

转换，来实现具体的算法。Spark中的基本方式：

1）使用程序中的集合创建，这种方式的实际意义主要用于测试；

2）使用本地文件系统创建，这种方式的实际意义主要用于测试大量数据的文件；

3）使用HDFS创建RDD，这种方式为生产环境中最常用的创建RDD的方式；

4）基于DB创建；

5）基于NoSQL。例如HBase；

6）基于S3(SC3)创建；

7）基于数据流创建。

二、RDD创建实战

1）通过集合创建，代码如下：

object RDDBasedOnCollection {
def main (args: Array[String]) {
val conf = new SparkConf()//create SparkConf
conf.setAppName("RDDBasedOnCollection")//set app name
conf.setMaster("local")//run local
val sc =new SparkContext(conf)
val numbers = 1 to 100 //创建一个Scala集合
val rdd = sc.parallelize(numbers)
val sum =rdd.reduce(_+_) //1+2=3 3+3=6 6+4=10
println("1+2+...+99+100"+"="+sum)
}
}

复制代码

结果如下所示：

9XC0)$N0U]H48CW8_9DWF4X.png

2）通过本地文件系统创建，代码如下：

object RDDBasedOnLocalFile {
def main (args: Array[String]) {
val conf = new SparkConf()//create SparkConf
conf.setAppName("RDDBasedOnCollection")//set app name
conf.setMaster("local")//run local
val sc =new SparkContext(conf)
val rdd = sc.textFile("C:/Users/feng/IdeaProjects/WordCount/src/SparkText.txt")
val linesLength=rdd.map(line=>line.length())
val sum = linesLength.reduce(_+_)
println("the total characters of the file"+"="+sum)
}
}

复制代码

结果如下：

IYZ8]MX$[~EDI[4YZUD6P8T.png

3）通过HDFS创建RDD，代码如下：

val wordcount = sc.textFile("/library/wordcount/input/licenses").flatMap(_.split(" ")).map(word=>(word,1)).reduceByKey(_+_).filter(pair=>pair._2>20).collect().foreach(println)

复制代码

结果如下所示：

U)K2{SE2NT)MDG]Q0GFJ0R7.png

注：本学习笔记来自DT大数据梦工厂

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏1 回帖

关键词：Collection Characters formation Character Projects Spark scala DT_Spark 大数据

第15课：RDD创建内幕 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

第15课：RDD创建内幕 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群