人大经济论坛 › 论坛 › 数据科学与人工智能 › 大数据分析 › spark高速集群计算平台 › Learning Spark by Holden Karau O'Reilly

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

12 3 4 下一页

发帖

楼主: hooli

6282 38

Learning Spark by Holden Karau O'Reilly [推广有奖]

2关注
3粉丝

博士生

97%

还不是VIP/贵宾

威望: 0 级
论坛币: 26034 个
通用积分: 2.2654
学术水平: 88 点
热心指数: 77 点
信用等级: 47 点
经验: 10596 点
帖子: 148
精华: 2
在线时间: 328 小时
注册时间: 2015-2-6
最后登录: 2022-3-1

楼主

hooli

发表于 2015-3-3 15:41:56 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

Table of Contents
Preface................................................................................................................................................ 5
Audience................................................................................................................................................5
How This Book is Organized.............................................................................................................. 6
Supporting Books.................................................................................................................................6
Code Examples..................................................................................................................................... 7
Early Release Status and Feedback................................................................................................... 7
Chapter 1. Introduction to Data Analysis with Spark......................................................8
What is Apache Spark?....................................................................................................................... 8
A Unified Stack.....................................................................................................................................8
Who Uses Spark, and For What?......................................................................................................11
A Brief History of Spark.................................................................................................................... 13
Spark Versions and Releases............................................................................................................ 13
Spark and Hadoop............................................................................................................................. 14
Chapter 2. Downloading and Getting Started...................................................................15
Downloading Spark............................................................................................................................15
Introduction to Spark’s Python and Scala Shells.......................................................................... 16
Introduction to Core Spark Concepts.............................................................................................20
Standalone Applications...................................................................................................................23
Conclusion.......................................................................................................................................... 25
Chapter 3. Programming with RDDs................................................................................... 26
RDD Basics......................................................................................................................................... 26
Creating RDDs................................................................................................................................... 28
RDD Operations................................................................................................................................ 28
Passing Functions to Spark.............................................................................................................. 32
Common Transformations and Actions......................................................................................... 36
Persistence (Caching)........................................................................................................................46
Conclusion.......................................................................................................................................... 48
Chapter 4. Working with Key-Value Pairs.........................................................................49
4
Motivation.......................................................................................................................................... 49
Creating Pair RDDs........................................................................................................................... 49
Transformations on Pair RDDs....................................................................................................... 50
Actions Available on Pair RDDs......................................................................................................60
Data Partitioning................................................................................................................................61
Conclusion.......................................................................................................................................... 70
Chapter 5. Loading and Saving Your Data.......................................................................... 71
Motivation........................................................................................................................................... 71
Choosing a Format............................................................................................................................. 71
Formats............................................................................................................................................... 72
File Systems........................................................................................................................................88
Compression.......................................................................................................................................89
Databases............................................................................................................................................ 91
Conclusion.......................................................................................................................................... 93
About the Authors.....................................................................................................................

本帖隐藏的内容

Learning Spark.pdf (1.19 MB, 需要: 80 个论坛币)

注意：这个是pre-release版本

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享1 收藏8 回帖

关键词：Learning earning Reilly Holden Spark Media

本帖被以下文库推荐

· 精华热门帖子|主题: 1618, 订阅: 45
· Apache Spark NewOccidental|主题: 195, 订阅: 7

使用道具举报

沙发

Multivariate 发表于 2015-3-17 10:05:55 |只看作者 |坛友微信交流群

/**
* Illustrates a simple aggregate in scala to compute the average of an RDD
*/
package com.oreilly.learningsparkexamples.scala
import org.apache.spark._
import org.apache.spark.rdd.RDD
object BasicAvg {
def main(args: Array[String]) {
val master = args.length match {
case x: Int if x > 0 => args(0)
case _ => "local"
}
val sc = new SparkContext(master, "BasicAvg", System.getenv("SPARK_HOME"))
val input = sc.parallelize(List(1,2,3,4))
val result = computeAvg(input)
val avg = result._1 / result._2.toFloat
println(result)
}
def computeAvg(input: RDD[Int]) = {
input.aggregate((0, 0))((x, y) => (x._1 + y, x._2 + 1),
(x,y) => (x._1 + y._1, x._2 + y._2))
}
}

复制代码

使用道具举报

藤椅

fantuanxiaot 发表于 2015-3-17 10:32:23 |只看作者 |坛友微信交流群

已有 1 人评分	论坛币	收起理由
Nicolle	+ 20	精彩帖子

总评分: 论坛币 + 20 查看全部评分

使用道具举报

板凳

giggleholy 发表于 2015-3-17 10:35:17 |只看作者 |坛友微信交流群

spark is trendy, a must-read book

/**
* Illustrates loading a simple text file
*/
package com.oreilly.learningsparkexamples.scala
import org.apache.spark._
object BasicAvgFromFile {
def main(args: Array[String]) {
if (args.length < 2) {
println("Usage: [sparkmaster] [inputfile]")
exit(1)
}
val master = args(0)
val inputFile = args(1)
val sc = new SparkContext(master, "BasicAvg", System.getenv("SPARK_HOME"))
val input = sc.textFile(inputFile)
val result = input.map(_.toInt).aggregate((0, 0))(
(acc, value) => (acc._1 + value, acc._2 + 1),
(acc1, acc2) => (acc1._1 + acc2._1, acc1._2 + acc2._2))
val avg = result._1 / result._2.toFloat
println(result)
}
}

复制代码

已有 1 人评分	论坛币	收起理由
Nicolle	+ 20	精彩帖子

总评分: 论坛币 + 20 查看全部评分

使用道具举报

报纸

uandi 发表于 2015-3-17 10:49:33 |只看作者 |坛友微信交流群

/**
* Illustrates loading a directory of files
*/
package com.oreilly.learningsparkexamples.scala
import org.apache.spark._
import org.apache.spark.SparkContext._
object BasicAvgFromFiles {
def main(args: Array[String]) {
if (args.length < 3) {
println("Usage: [sparkmaster] [inputdirectory] [outputdirectory]")
exit(1)
}
val master = args(0)
val inputFile = args(1)
val outputFile = args(2)
val sc = new SparkContext(master, "BasicAvgFromFiles", System.getenv("SPARK_HOME"))
val input = sc.wholeTextFiles(inputFile)
val result = input.mapValues{y =>
val nums = y.split(" ").map(_.toDouble)
nums.sum / nums.size.toDouble
}
result.saveAsTextFile(outputFile)
}
}

复制代码

已有 1 人评分	论坛币	收起理由
Nicolle	+ 20	精彩帖子

总评分: 论坛币 + 20 查看全部评分

使用道具举报

地板

oink-oink 发表于 2015-3-17 11:35:18 |只看作者 |坛友微信交流群

已有 1 人评分	论坛币	收起理由
Nicolle	+ 20	精彩帖子

总评分: 论坛币 + 20 查看全部评分

使用道具举报

7楼

lhf8059 发表于 2015-3-17 12:09:37 |只看作者 |坛友微信交流群

/**
* Illustrates mapPartitions in scala
*/
package com.oreilly.learningsparkexamples.scala
import org.apache.spark._
object BasicAvgMapPartitions {
case class AvgCount(var total: Int = 0, var num: Int = 0) {
def merge(other: AvgCount): AvgCount = {
total += other.total
num += other.num
this
}
def merge(input: Iterator[Int]): AvgCount = {
input.foreach{elem =>
total += elem
num += 1
}
this
}
def avg(): Float = {
total / num.toFloat;
}
}
def main(args: Array[String]) {
val master = args.length match {
case x: Int if x > 0 => args(0)
case _ => "local"
}
val sc = new SparkContext(master, "BasicAvgMapPartitions", System.getenv("SPARK_HOME"))
val input = sc.parallelize(List(1, 2, 3, 4))
val result = input.mapPartitions(partition =>
// Here we only want to return a single element for each partition, but mapPartitions requires that we wrap our return in an Iterator
Iterator(AvgCount(0, 0).merge(partition)))
.reduce((x,y) => x.merge(y))
println(result)
}
}

复制代码

已有 1 人评分	论坛币	收起理由
Nicolle	+ 20	精彩帖子

总评分: 论坛币 + 20 查看全部评分

使用道具举报

8楼

tonyme2

发表于 2015-3-17 12:09:57 |只看作者 |坛友微信交流群

/**
* Illustrates a simple fold in scala
*/
package com.oreilly.learningsparkexamples.scala
import org.apache.spark._
object BasicAvgWithKryo {
def main(args: Array[String]) {
val master = args.length match {
case x: Int if x > 0 => args(0)
case _ => "local"
}
val conf = new SparkConf().setMaster(master).setAppName("basicAvgWithKryo")
conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
val sc = new SparkContext(conf)
val input = sc.parallelize(List(1,2,3,4))
val result = input.aggregate((0, 0))((x, y) => (x._1 + y, x._2 + 1),
(x,y) => (x._1 + y._1, x._2 + y._2))
val avg = result._1 / result._2.toFloat
println(result)
}
}

复制代码

使用道具举报

9楼

fengyg

发表于 2015-3-17 12:37:53 |只看作者 |坛友微信交流群

/**
* Illustrates filtering and union to extract lines with "error" or "warning"
*/
package com.oreilly.learningsparkexamples.scala
import org.apache.spark._
import org.apache.spark.SparkContext._
object BasicFilterUnionCombo {
def main(args: Array[String]) {
val conf = new SparkConf
conf.setMaster(args(0))
val sc = new SparkContext(conf)
val inputRDD = sc.textFile(args(1))
val errorsRDD = inputRDD.filter(_.contains("error"))
val warningsRDD = inputRDD.filter(_.contains("warn"))
val badLinesRDD = errorsRDD.union(warningsRDD)
println(badLinesRDD.collect().mkString("\n"))
}
}

复制代码

使用道具举报

10楼

chinesesunboy 发表于 2015-3-17 12:50:52 |只看作者 |坛友微信交流群

/**
* Illustrates intersection by key
*/
package com.oreilly.learningsparkexamples.scala
import org.apache.spark._
import org.apache.spark.rdd.PairRDDFunctions
import org.apache.spark.rdd.RDD
import org.apache.spark.SparkContext._
import scala.reflect.ClassTag
object BasicIntersectByKey {
def intersectByKey[K: ClassTag, V: ClassTag](rdd1: RDD[(K, V)], rdd2: RDD[(K, V)]): RDD[(K, V)] = {
rdd1.cogroup(rdd2).flatMapValues{
case (Nil, _) => None
case (_, Nil) => None
case (x, y) => x++y
}
}
def main(args: Array[String]) {
val master = args.length match {
case x: Int if x > 0 => args(0)
case _ => "local"
}
val sc = new SparkContext(master, "BasicIntersectByKey", System.getenv("SPARK_HOME"))
val rdd1 = sc.parallelize(List((1, "panda"), (2, "happy")))
val rdd2 = sc.parallelize(List((2, "pandas")))
val iRdd = intersectByKey(rdd1, rdd2)
val panda: List[(Int, String)] = iRdd.collect().toList
panda.map(println(_))
sc.stop()
}
}