人大经济论坛 › 论坛 › 数据科学与人工智能 › 大数据分析 › spark高速集群计算平台 › 第59课：使用Java和Scala在IDE中实战RDD和DataFrame

发帖

楼主: 无量天尊Spark

3584 0

第59课：使用Java和Scala在IDE中实战RDD和DataFrame [推广有奖]

1关注
8粉丝

硕士生

34%

还不是VIP/贵宾

威望: 0 级
论坛币: 305 个
通用积分: 0
学术水平: 5 点
热心指数: 14 点
信用等级: 2 点
经验: 23032 点
帖子: 73
精华: 0
在线时间: 135 小时
注册时间: 2016-2-27
最后登录: 2016-9-11

楼主

无量天尊Spark 发表于 2016-6-13 17:07:26 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

一、Java方式：

public class RDD2DataFrameByReflection {
public static void main(String args[]){
SparkConf conf = new SparkConf().setMaster("local").setAppName("RDD2DataFrameByReflection");
JavaSparkContext sc = new JavaSparkContext(conf);
SQLContext sqlContext = new SQLContext(sc);
JavaRDD<String> lines = sc.textFile("D:\\idea\\spark_dt\\src\\main\\java\\com\\base\\spark\\sql\\transfer\\person.txt");
JavaRDD<Person_> persons = lines.map((Function<String, Person_>) line -> {
String[] splited = line.split(",");
Person_ p = new Person_();
p.setId(Integer.valueOf(splited[0]));
p.setName(splited[1]);
p.setAge(Integer.valueOf(splited[0]));
return p;
});
//在底层通过反射的方式获得P鹅绒的所有的fields,结合RDD本身，就生成了DataFrame
DataFrame df = sqlContext.createDataFrame(persons, Person_.class);
df.show();
df.registerTempTable("persons");
DataFrame bigDatas = sqlContext.sql("select * from persons where age >= 6");
JavaRDD<Row> bigDataRDD= bigDatas.toJavaRDD();
JavaRDD<Person_> personRDD = bigDataRDD.map((Function<Row, Person_>) row -> {
Person_ p = new Person_();
p.setId(row.getInt(0));
p.setName(row.getString(1));
p.setAge(row.getInt(2));
return p;
});
personRDD.collect().forEach(System.out::println);
}
}
class Person_{
public int getId() {
return id;
}
public void setId(Integer id) {
this.id = id;
}
public String getName() {
return name;
}
public void setName(String name) {
this.name = name;
}
public int getAge() {
return age;
}
public void setAge(Integer age) {
this.age = age;
}
@Override
public String toString() {
return "Person{" +
"id=" + id +
", name='" + name + '\'' +
", age=" + age +
'}';
}
public Person_(Integer id, String name, Integer age) {
this.id = id;
this.name = name;
this.age = age;
}
Person_(){}
private Integer id;
private String name;
private Integer age;
}

复制代码

运行结果如下：

16/03/25 05:59:14 WARN TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, localhost): java.lang.IllegalAccessException: Class org.apache.spark.sql.SQLContext$anonfun$org$apache$spark$sql$SQLContext$beansToRows$1$anonfun$apply$1 can not access a member of class com.base.spark.sql.transfer.Person_ with modifiers "public"
at sun.reflect.Reflection.ensureMemberAccess(Reflection.java:102)

复制代码

解决办法：Person_类需要Public修饰符，将Person_放到单独的文件

运行结果如下：

16/03/25 06:04:46 INFO DAGScheduler: Job 0 finished: show at RDD2DataFrameByReflection.java:32, took 0.178583 s
+---+---+------+
|age| id| name|
+---+---+------+
| 1| 1| spark|
| 2| 2|hadoop|
| 3| 3| flink|
| 4| 4| spark|
| 5| 5|hadoop|
| 6| 6| spark|
| 7| 7| spark|
| 8| 8| spark|
| 9| 9| scala|
| 10| 10| java|
| 11| 11| spark|
+---+---+------+
16/03/25 06:04:47 INFO SparkContext: Starting job: collect at RDD2DataFrameByReflection.java:43
16/03/25 06:04:47 INFO DAGScheduler: Got job 1 (collect at RDD2DataFrameByReflection.java:43) with 1 output partitions
16/03/25 06:04:47 INFO DAGScheduler: Final stage: ResultStage 1 (collect at RDD2DataFrameByReflection.java:43)
16/03/25 06:04:47 INFO DAGScheduler: Parents of final stage: List()
16/03/25 06:04:47 INFO DAGScheduler: Missing parents: List()
16/03/25 06:04:47 INFO DAGScheduler: Submitting ResultStage 1 (MapPartitionsRDD[8] at map at RDD2DataFrameByReflection.java:36), which has no missing parents
16/03/25 06:04:47 INFO MemoryStore: Block broadcast_2 stored as values in memory (estimated size 9.5 KB, free 135.6 KB)
16/03/25 06:04:47 INFO MemoryStore: Block broadcast_2_piece0 stored as bytes in memory (estimated size 4.9 KB, free 140.5 KB)
16/03/25 06:04:47 INFO BlockManagerInfo: Added broadcast_2_piece0 in memory on localhost:56952 (size: 4.9 KB, free: 1771.1 MB)
16/03/25 06:04:47 INFO SparkContext: Created broadcast 2 from broadcast at DAGScheduler.scala:1006
16/03/25 06:04:47 INFO DAGScheduler: Submitting 1 missing tasks from ResultStage 1 (MapPartitionsRDD[8] at map at RDD2DataFrameByReflection.java:36)
16/03/25 06:04:47 INFO TaskSchedulerImpl: Adding task set 1.0 with 1 tasks
16/03/25 06:04:47 INFO TaskSetManager: Starting task 0.0 in stage 1.0 (TID 1, localhost, partition 0,PROCESS_LOCAL, 2177 bytes)
16/03/25 06:04:47 INFO Executor: Running task 0.0 in stage 1.0 (TID 1)
16/03/25 06:04:47 INFO HadoopRDD: Input split: file:/D:/idea/spark_dt/src/main/java/com/base/spark/sql/transfer/person.txt:0+131
16/03/25 06:04:47 INFO BlockManagerInfo: Removed broadcast_1_piece0 on localhost:56952 in memory (size: 3.1 KB, free: 1771.1 MB)
16/03/25 06:04:47 INFO ContextCleaner: Cleaned accumulator 1
16/03/25 06:04:47 INFO GeneratePredicate: Code generated in 240.433533 ms
16/03/25 06:04:47 INFO GenerateUnsafeProjection: Code generated in 13.091797 ms
16/03/25 06:04:47 ERROR Executor: Exception in task 0.0 in stage 1.0 (TID 1)
java.lang.ClassCastException: java.lang.Integer cannot be cast to java.lang.String

复制代码

错误原因：返回的ROW中的字段并没有按照Person_字段的顺序排列

Row中的字段顺序：

T@1UJ_T_[(Y0KHY13JI`%W6.png

可以看到这里scheme的顺序并不是我们定义的字段顺序

解决办法：

/**
* Returns the value of a given fieldName.
* For primitive types if value is null it returns 'zero value' specific for primitive
* ie. 0 for Int - use isNullAt to ensure that value is not null
*
* @throws UnsupportedOperationException when schema is not defined.
* @throws IllegalArgumentException when fieldName do not exist.
* @throws ClassCastException when data type does not match.
*/
def getAs[T](fieldName: String): T = getAs[T](fieldIndex(fieldName))

复制代码

可以看到这里Row 提供了根据Row中的字段名称来获取字段的值

修改代码：

JavaRDD<Person_> personRDD = bigDataRDD.map((Function<Row, Person_>) row -> {
Person_ p = new Person_();
p.setId(row.getAs("id"));
p.setName(row.getAs("name"));
p.setAge(row.getAs("age"));
return p;
});

复制代码

运行结果：

java.io.NotSerializableException: com.base.spark.sql.transfer.Person_
Serialization stack:
- object not serializable (class: com.base.spark.sql.transfer.Person_, value: Person{id=6, name='spark', age=6})
- element of array (index: 0)
- array (class [Ljava.lang.Object;, size 6)
at org.apache.spark.serializer.SerializationDebugger$.improveException(SerializationDebugger.scala:40)
at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:47)
at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:101)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:239)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)

复制代码

提示我们Person_ 没有序列化

解决办法：

让Person_ 实现Serializable 接口

再次运行：

16/03/25 06:18:00 INFO TaskSchedulerImpl: Removed TaskSet 1.0, whose tasks have all completed, from pool
16/03/25 06:18:00 INFO DAGScheduler: ResultStage 1 (collect at RDD2DataFrameByReflection.java:43) finished in 0.347 s
16/03/25 06:18:00 INFO DAGScheduler: Job 1 finished: collect at RDD2DataFrameByReflection.java:43, took 0.356079 s
Person{id=6, name='spark', age=6}
Person{id=7, name='spark', age=7}
Person{id=8, name='spark', age=8}
Person{id=9, name='scala', age=9}
Person{id=10, name='java', age=10}
Person{id=11, name='spark', age=11}

复制代码

这次运行成功了

总结：

JavaRDD和DataFrame互相转换注意事项：

1）反射的类必须是Pulicclass

2）定义的类必须实现Serializable 接口

3）DataFrame 转换成RDD时注意根据fieldName 获取对应的值

二、scala方式

8WH8UK}(4XCBKNXG9@{~4FQ.png

注意：这里lines.map 返回的RDD并没有.toDF 方法，这里用到了隐式转换

/**
* Creates a DataFrame from an RDD of Product (e.g. case classes, tuples).
* @since 1.3.0
*/
implicit def rddToDataFrameHolder[A <: Product : TypeTag](rdd: RDD[A]): DataFrameHolder = {
DataFrameHolder(_sqlContext.createDataFrame(rdd))
}

复制代码

隐式转换最终将RDD转换成了DataFrameHolder 然后调用toDF 最终将RDD转换成了DataFrame了

case class DataFrameHolder private[sql](private val df: DataFrame) {
// This is declared with parentheses to prevent the Scala compiler from treating
// `rdd.toDF("1")` as invoking this toDF and then apply on the returned DataFrame.
def toDF(): DataFrame = df
def toDF(colNames: String*): DataFrame = df.toDF(colNames : _*)
}

复制代码

注：本学习笔记来自DT大数据梦工厂微信公众号：DT_Spark 每晚8点YY永久直播频道：68917580

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：Dataframe Frame SCALA Fram Data Spark scala DT_Spark 大数据

第59课：使用Java和Scala在IDE中实战RDD和DataFrame [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

第59课：使用Java和Scala在IDE中实战RDD和DataFrame [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群