楼主: jerker
3024 6

Spark快速数据处理(Fast Data Processing with Spark,第一版中英文,第二版英文) [推广有奖]

已卖:115份资源

学术权威

80%

还不是VIP/贵宾

-

TA的文库  其他...

数据科学(Data Science)

威望
6
论坛币
50722 个
通用积分
554.7265
学术水平
3272 点
热心指数
3508 点
信用等级
3023 点
经验
532 点
帖子
5802
精华
28
在线时间
3532 小时
注册时间
2009-11-19
最后登录
2025-6-30

初级学术勋章 中级热心勋章 初级热心勋章 初级信用勋章 中级学术勋章 高级学术勋章 特级学术勋章 高级热心勋章 特级热心勋章 中级信用勋章 高级信用勋章 特级信用勋章

楼主
jerker 发表于 2015-6-26 19:11:17 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

从实用角度系统讲解Spark的数据处理工具及使用方法

手把手教你充分利用Spark提供的各种功能,快速编写高效分布式程序

系统讲解Spark的数据处理工具及使用方法,为快速编写高效分布式程序提供实用指南

QQ截图20150626184516.png

QQ截图20150626184628.png QQ截图20150626184614.png

内容简介
  Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,现已逐渐获得很多企业的支持,如阿里巴巴、百度、网易、英特尔等公司。
  《Spark快速数据处理》系统讲解Spark的使用方法,包括如何在多种机器上安装Spark,如何配置一个Spark集群,如何在交互模式下运行第一个Spark作业,如何在Spark集群上构建一个生产级的脱机/独立作业,如何与Spark集群建立连接和使用SparkContext,如何创建和保存RDD(弹性分布式数据集),如何用Spark分布式处理数据,如何设置Shark,将Hive查询集成到你的Spark作业中来,如何测试Spark作业,以及如何提升Spark任务的性能。
作者简介
  Holden Karau,资深软件开发工程师,现就职于Databricks公司,之前曾就职于谷歌、微软和Foursquare等著名公司。他对开源情有独钟,参与了许多开源项目,如Linux内核无线驱动、Android程序监控、搜索引擎等,对存储系统、推荐系统、搜索分类等都有深入研究。
译者简介
  余璜,阿里巴巴核心系统研发工程师,OceanBase核心开发人员,对分布式系统理论和工程实践有深刻理解,专注于分布式系统设计、大规模数据处理,乐于分享,在CSDN上分享了大量技术文章。
  张磊,Spark爱好者,曾参与分布式OLAP数据库系统核心开发,热衷于大数据处理、分布式计算。
附件包括Spark快速数据处理第一版中英文,第二版英文

本帖隐藏的内容

Spark快速数据处理 .rar (29.81 MB) 本附件包括:
  • Spark快速数据处理 .pdf
  • Fast Data Processing with Spark, 2nd Edition.pdf
  • Fast Data Processing with Spark.pdf


目录
译者序
作者简介
前言
第1章 安装Spark以及构建Spark集群 / 1
1.1 单机运行Spark / 4
1.2 在EC2上运行Spark / 5
1.3 在ElasticMapReduce上部署Spark / 11
1.4 用Chef(opscode)部署Spark / 12
1.5 在Mesos上部署Spark / 14
1.6 在Yarn上部署Spark / 15
1.7 通过SSH部署集群 / 16
1.8 链接和参考 / 21
1.9 小结 / 21
第2章 Spark shell的使用 / 23
2.1 加载一个简单的text文件 / 24
2.2 用Spark shell运行逻辑回归 / 26
2.3 交互式地从S3加载数据 / 28
2.4 小结 / 30
第3章 构建并运行Spark应用 / 31
3.1 用sbt构建Spark作业 / 32
3.2 用Maven构建Spark作业 / 36
3.3 用其他工具构建Spark作业 / 39
3.4 小结 / 39
第4章 创建SparkContext / 41
4.1 Scala / 43
4.2 Java / 43
4.3 Java和Scala共享的API / 44
4.4 Python / 45
4.5 链接和参考 / 45
4.6 小结 / 46
第5章 加载与保存数据 / 47
5.1 RDD / 48
5.2 加载数据到RDD中 / 49
5.3 保存数据 / 54
5.4 连接和参考 / 55
5.5 小结 / 55
第6章 操作RDD / 57
6.1 用Scala和Java操作RDD / 58
6.2 用Python操作RDD / 79
6.3 链接和参考 / 83
6.4 小结 / 84
第7章 Shark-Hive和Spark的综合运用 / 85
7.1 为什么用Hive/Shark / 86
7.2 安装Shark / 86
7.3 运行Shark / 88
7.4 加载数据 / 88
7.5 在Spark程序中运行HiveQL查询 / 89
7.6 链接和参考 / 92
7.7 小结 / 93
第8章 测试 / 95
8.1 用Java和Scala测试 / 96
8.2 用Python测试 / 103
8.3 链接和参考 / 104
8.4 小结 / 105
第9章 技巧和窍门 / 107
9.1 日志位置 / 108
9.2 并发限制 / 108
9.3 内存使用与垃圾回收 / 109
9.4 序列化 / 110
9.5 IDE集成环境 / 111
9.6 Spark与其他语言 / 112
9.7 安全提示 / 113
9.8 邮件列表 / 113
9.9 链接和参考 / 113
9.10 小结 / 114

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Processing processI Process Spark Park 英文 阿里巴巴 英特尔 百度 实验室

已有 2 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
iLovePython + 5 + 1 + 1 + 1 精彩帖子
fantuanxiaot + 50 + 50 精彩帖子

总评分: 经验 + 50  论坛币 + 55  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

本帖被以下文库推荐

沙发
jpld 发表于 2015-6-27 21:55:15
谢谢楼主分享~
已有 1 人评分论坛币 收起 理由
jerker + 5 精彩帖子

总评分: 论坛币 + 5   查看全部评分

藤椅
cnuk 发表于 2015-6-27 23:03:56
好好学习
已有 1 人评分论坛币 收起 理由
jerker + 5 精彩帖子

总评分: 论坛币 + 5   查看全部评分

板凳
云游天外 发表于 2015-6-27 23:46:38
谢谢!
已有 1 人评分论坛币 收起 理由
jerker + 5 精彩帖子

总评分: 论坛币 + 5   查看全部评分

报纸
nirvanas 发表于 2015-7-1 12:15:19
多谢楼主分享。。
已有 1 人评分论坛币 收起 理由
jerker + 5 精彩帖子

总评分: 论坛币 + 5   查看全部评分

地板
排队木偶 发表于 2015-7-19 08:02:28
spark 我就喜欢
已有 1 人评分论坛币 收起 理由
jerker + 5 精彩帖子

总评分: 论坛币 + 5   查看全部评分

7
微风湖细雨 发表于 2015-7-22 15:54:10
thanks

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-4 17:17