人大经济论坛 › 论坛 › 数据科学与人工智能 › 大数据分析 › spark高速集群计算平台 › 第17课：RDD案例(常用算子解释)

发帖

楼主: 无量天尊Spark

2213 0

第17课：RDD案例(常用算子解释) [推广有奖]

1关注
8粉丝

硕士生

34%

还不是VIP/贵宾

威望: 0 级
论坛币: 305 个
通用积分: 0
学术水平: 5 点
热心指数: 14 点
信用等级: 2 点
经验: 23032 点
帖子: 73
精华: 0
在线时间: 135 小时
注册时间: 2016-2-27
最后登录: 2016-9-11

楼主

无量天尊Spark 发表于 2016-5-13 20:52:01 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

1、创建RDD，代码如下：

def sparkContext(name:String) = {
val conf = new SparkConf().setAppName(name).setMaster("local")
val sc = new SparkContext(conf)
sc
}

复制代码

2、Map：适用于任何集合，且对其作用的集合中的每一个元素循环遍历，并调用其作为参数的函数对每一个遍历的元素进行具体化处理。代码如下：

def mapTransformation(sc:SparkContext): Unit ={
val nums = sc.parallelize(1 to 10) //根据集合创建RDD
val mapped = nums.map(item=> 2 * item)
mapped.collect.foreach(println)
}

复制代码

结果如下所示：

R`B53N(W@(TPE{M{V`N%5$W.png

3、Filter：遍历集合中的所有元素，将每个元素作为参数放入函数中进行判断，将判断结果为真的元素筛选出来。代码如下：

def filterTransformation(sc:SparkContext): Unit ={
val nums = sc.parallelize(1 to 20) //根据集合创建RDD
val filtered = nums.filter(item => item % 2 == 0)
filtered.collect.foreach(println)
}

复制代码

结果如下所示：

D]VV4YY}4~WFH0W{58`0.png

4、Flatmap：通过传入的作为参数的函数来作用与RDD的每个字符串进行单词切分，然后把切分后的结果合并成一个大的集合。代码如下：

def flatmapTransformation(sc:SparkContext): Unit ={
val bigData = Array("scala","spark","java Hadoop","java tachyon")
val bigDataString =sc.parallelize(bigData)
val words= bigDataString.flatMap(line=>line.split(" "))
words.collect.foreach(println)
}

复制代码

结果如下所示：

%R503VB`L~K}V{)GUE62JDJ.png

5、groupByKey：将传入的tuple数组生成为RDD，通过groupByKey方法将RDD通过key进行分组汇总，并生成一个新的RDD。代码如下：

def groupByKeyTransformation(sc:SparkContext): Unit ={
val data = Array(Tuple2(100,"Spark"),Tuple2(100,"Tachyon"),Tuple2(90,"Hadoop"),Tuple2(80,"Kafka"),Tuple2(70,"Scala"))
val dataRDD = sc.parallelize(data)
val group = dataRDD.groupByKey()
group.collect.foreach(pair=>println(pair._1+":"+pair._2))
}

复制代码

结果如下所示：

42N)QO%U5D47UGL9~VGZQ47.png

6、reduceByKey：对key相同的元素进行value值得相加。代码如下：

def reduceByKeyTransformation(sc:SparkContext): Unit ={
val lines =sc.textFile("C://Users//feng//IdeaProjects//WordCount//src//SparkText.txt",1)
val reduce= lines.map(line=>(line,1)).reduceByKey(_+_)
reduce.collect.foreach(pair=>println(pair._1+":"+pair._2))
}

复制代码

文件内容如下所示：

$_{7HGINR@IF~E[U_$VQ)@70.png$

结果如下所示：

$6B@7}_$R[EGEV5X{{]{H1.png$

7、join：根据相同key，把不同的RDD合并为一个RDD。代码如下：