Fast Data Processing with Spark 2 (2016, 3rd Edition), 原版 PDF + EPUB + MOBI

6关注
3514
粉丝

贵宾

已卖：205308份资源

泰斗

1%

还不是VIP/贵宾

-

TA的文库 其他...

【历史+心理学+社会自然科学】

【数学+统计+计算机编程】

【金融+经济+商学+国际政治】

0%

威望: 6 级
论坛币: 3609019 个
通用积分: 1139.2151
学术水平: 4327 点
热心指数: 4650 点
信用等级: 3957 点
经验: 363438 点
帖子: 9795
精华: 9
在线时间: 2842 小时
注册时间: 2015-2-9
最后登录: 2017-1-29

楼主

cmwei333 发表于 2016-10-28 08:53:51 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

Fast Data Processing with Spark 2 - Third Edition

Krishna Sankar

Learn how to use Spark to process big data at speed and scale for sharper analytics. Put the principles into practice for faster, slicker big data projects.

When people want a way to process Big Data at speed, Spark is invariably the solution. With its ease of development (in comparison to the relative complexity of Hadoop), it’s unsurprising that it’s becoming popular with data analysts and engineers everywhere.

Beginning with the fundamentals, we’ll show you how to get set up with Spark with minimum fuss. You’ll then get to grips with some simple APIs before investigating machine learning and graph processing – throughout we’ll make sure you know exactly how to apply your knowledge.

You will also learn how to use the Spark shell, how to load data before finding out how to build and run your own Spark applications. Discover how to manipulate your RDD and get stuck into a range of DataFrame APIs. As if that’s not enough, you’ll also learn some useful Machine Learning algorithms with the help of Spark MLlib and integrating Spark with R. We’ll also make sure you’re confident and prepared for graph processing, as you learn more about the GraphX API.

Table of Contents

1: INSTALLING SPARK AND SETTING UP YOUR CLUSTER
2: USING THE SPARK SHELL
3: BUILDING AND RUNNING A SPARK APPLICATION
4: CREATING A SPARKSESSION OBJECT
5: LOADING AND SAVING DATA IN SPARK
6: MANIPULATING YOUR RDD
7: SPARK 2.0 CONCEPTS
8: SPARK SQL
9: FOUNDATIONS OF DATASETS/DATAFRAMES – THE PROVERBIAL WORKHORSE FOR DATASCIENTISTS
10: SPARK WITH BIG DATA
11: MACHINE LEARNING WITH SPARK ML PIPELINES
12: GRAPHX

原版 PDF + EPUB + MOBI:

本帖隐藏的内容

原版 PDF:

Fast Data Processing with Spark 2 (3rd Edition).pdf (31.42 MB, 需要: 20 个论坛币)

EPUB:

Fast Data Processing with Spark 2 (3rd Edition).epub (23.04 MB, 需要: 20 个论坛币)

MOBI:

Fast Data Processing with Spark 2 (3rd Edition).mobi (38.74 MB, 需要: 20 个论坛币)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏2 回帖

关键词：Processing processI Edition Process dition comparison complexity principles becoming practice

本帖被以下文库推荐

· 编程语言(Coding Languages)|主题: 3936, 订阅: 126
· Data Science NewOccidental|主题: 1233, 订阅: 120
· 2万+全球顶级名校/投行英文文献 |主题: 21710, 订阅: 2698

bbs.pinggu.org/forum.php?mod=collection&action=view&ctid=3257
bbs.pinggu.org/forum.php?mod=collection&action=view&ctid=3258
bbs.pinggu.org/forum.php?mod=collection&action=view&ctid=3259

沙发

chinajzp(未真实交易用户)

发表于 2016-10-28 09:05:02

好

加关注串个门加好友发消息 0关注 463 粉丝巨擘 Nicolle 当前离线阅读权限 255 威望 16 级论坛币 12403159 个通用积分 1639.2132 学术水平 3305 点热心指数 3329 点信用等级 3095 点经验 476993 点帖子 23839 精华 91 在线时间 9878 小时注册时间 2005-4-23 最后登录 2022-3-6 雷达卡	藤椅 Nicolle(未真实交易用户) 发表于 2016-10-28 09:11:27 提示: 作者被禁止或删除内容自动屏蔽

	回复举报

板凳

fengyg(真实交易用户)

发表于 2016-10-28 09:24:30

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.*;
import org.apache.spark.SparkFiles;;
public class LDSV02 {
public static void main(String[] args) {
SparkConf conf = new SparkConf().setAppName("Chapter 05").setMaster("local");
JavaSparkContext ctx = new JavaSparkContext(conf);
System.out.println("Running Spark Version : " +ctx.version());
ctx.addFile("/Users/ksankar/fdps-vii/data/spam.data");
JavaRDD<String> lines = ctx.textFile(SparkFiles.get("spam.data"));
System.out.println(lines.first());
}
}

复制代码

已有 1 人评分	论坛币	收起理由
Nicolle	+ 20	鼓励积极发帖讨论

总评分: 论坛币 + 20 查看全部评分

报纸

jinyizhe282(未真实交易用户) 发表于 2016-10-28 09:55:19

import java.util.Arrays;
import java.util.List;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.*;
import org.apache.spark.api.java.function.DoubleFunction;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.SparkFiles;;
public class LDSV03 {
public static void main(String[] args) {
SparkConf conf = new SparkConf().setAppName("Chapter 05").setMaster("local");
JavaSparkContext ctx = new JavaSparkContext(conf);
System.out.println("Running Spark Version : " +ctx.version());
ctx.addFile("/Users/ksankar/fdps-vii/data/Line_of_numbers.csv");
//
JavaRDD<String> lines = ctx.textFile(SparkFiles.get("Line_of_numbers.csv"));
//
JavaRDD<String[]> numbersStrRDD = lines.map(new Function<String,String[]>() {
public String[] call(String line) {return line.split(",");}
});
List<String[]> val = numbersStrRDD.take(1);
for (String[] e : val) {
for (String s : e) {
System.out.print(s+" ");
}
System.out.println();
}
//
JavaRDD<String> strFlatRDD = lines.flatMap(new FlatMapFunction<String,String>() {
public Iterable<String> call(String line) {return Arrays.asList(line.split(","));}
});
List<String> val1 = strFlatRDD.collect();
for (String s : val1) {
System.out.print(s+" ");
}
System.out.println();
//
JavaRDD<Integer> numbersRDD = strFlatRDD.map(new Function<String,Integer>() {
public Integer call(String s) {return Integer.parseInt(s);}
});
List<Integer> val2 = numbersRDD.collect();
for (Integer s : val2) {
System.out.print(s+" ");
}
System.out.println();
//
Integer sum = numbersRDD.reduce(new Function2<Integer,Integer,Integer>() {
public Integer call(Integer a, Integer b) {return a+b;}
});
System.out.println("Sum = "+sum);
}
}

复制代码

地板

jinyizhe282(未真实交易用户) 发表于 2016-10-28 09:57:29

谢谢

加关注串个门加好友发消息 0关注 463 粉丝巨擘 Nicolle 当前离线阅读权限 255 威望 16 级论坛币 12403159 个通用积分 1639.2132 学术水平 3305 点热心指数 3329 点信用等级 3095 点经验 476993 点帖子 23839 精华 91 在线时间 9878 小时注册时间 2005-4-23 最后登录 2022-3-6 雷达卡	7楼 Nicolle(未真实交易用户) 发表于 2016-10-28 10:01:44 提示: 作者被禁止或删除内容自动屏蔽

	回复举报

加关注串个门加好友发消息 0关注 463 粉丝巨擘 Nicolle 当前离线阅读权限 255 威望 16 级论坛币 12403159 个通用积分 1639.2132 学术水平 3305 点热心指数 3329 点信用等级 3095 点经验 476993 点帖子 23839 精华 91 在线时间 9878 小时注册时间 2005-4-23 最后登录 2022-3-6 雷达卡	8楼 Nicolle(未真实交易用户) 发表于 2016-10-28 10:02:18 提示: 作者被禁止或删除内容自动屏蔽

	回复举报

加关注串个门加好友发消息 0关注 463 粉丝巨擘 Nicolle 当前离线阅读权限 255 威望 16 级论坛币 12403159 个通用积分 1639.2132 学术水平 3305 点热心指数 3329 点信用等级 3095 点经验 476993 点帖子 23839 精华 91 在线时间 9878 小时注册时间 2005-4-23 最后登录 2022-3-6 雷达卡	9楼 Nicolle(未真实交易用户) 发表于 2016-10-28 10:02:56 提示: 作者被禁止或删除内容自动屏蔽

	回复举报

加关注串个门加好友发消息 0关注 463 粉丝巨擘 Nicolle 当前离线阅读权限 255 威望 16 级论坛币 12403159 个通用积分 1639.2132 学术水平 3305 点热心指数 3329 点信用等级 3095 点经验 476993 点帖子 23839 精华 91 在线时间 9878 小时注册时间 2005-4-23 最后登录 2022-3-6 雷达卡	10楼 Nicolle(未真实交易用户) 发表于 2016-10-28 10:03:18 提示: 作者被禁止或删除内容自动屏蔽

	回复举报

Fast Data Processing with Spark 2 (2016, 3rd Edition), 原版 PDF + EPUB + MOBI [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

本帖隐藏的内容

扫码加我拉你入群

相关帖子

本帖被以下文库推荐

初级热心勋章

中级热心勋章

高级热心勋章

初级信用勋章

中级信用勋章

初级学术勋章

特级热心勋章

中级学术勋章

高级信用勋章

高级学术勋章

特级学术勋章

特级信用勋章

本版微信群

Fast Data Processing with Spark 2 (2016, 3rd Edition), 原版 PDF + EPUB + MOBI [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

本帖隐藏的内容

扫码加我 拉你入群

相关帖子

本帖被以下文库推荐

初级热心勋章

中级热心勋章

高级热心勋章

初级信用勋章

中级信用勋章

初级学术勋章

特级热心勋章

中级学术勋章

高级信用勋章

高级学术勋章

特级学术勋章

特级信用勋章

本版微信群

扫码加我拉你入群