| 所在主题: | |
| 文件名: Spark高级数据分析.zip | |
| 资料下载链接地址: https://bbs.pinggu.org/a-3289785.html | |
| 附件大小: | |
|
Spark高级数据分析
作者: [美] Sandy Ryza / [美] Uri Laserson / [英] Sean Owen / [美] Josh Wills 出版社: 人民邮电出版社 译者: 龚少成 出版年: 2015-11 内容简介· · · · · · 本书是使用Spark进行大规模数据分析的实战宝典,由著名大数据公司Cloudera的数据科学家撰写。四位作者首先结合数据科学和大数据分析的广阔背景讲解了Spark,然后介绍了用Spark和Scala进行数据处理的基础知识,接着讨论了如何将Spark用于机器学习,同时介绍了常见应用中几个最常用的算法。此外还收集了一些更加新颖的应用,比如通过文本隐含语义关系来查询Wikipedia或分析基因数据。 投诉 作者简介· · · · · · Sandy Ryza 是Cloudera公司资深数据科学家,Apache Spark项目的活跃代码贡献者。最近领导了Cloudera公司的Spark开发工作。他还是Hadoop项目管理委员会委员。 Uri Laserson 是Cloudera公司资深数据科学家,专注于Hadoop生态系统中的Python部分。 Sean Owen 是Cloudera公司EMEA地区的数据科学总监,也是Apache Spark项目的代码提交者。他创立了基于Spark、Spark Streaming和Kafka的Hadoop实时大规模学习项目Oryx(之前称为Myrrix)。 Josh Wills 是Cloudera公司的高级数据科学总监,Apache Crunch项目的发起者和副总裁。 目录· · · · · · 推荐序ix 译者序xi 序xiii 前言xv 第1章大数据分析1 1.1数据科学面临的挑战2 1.2认识Apache Spark4 1.3关于本书5 第2章用Scala和Spark进行数据分析7 2.1数据科学家的Scala8 2.2Spark 编程模型9 2.3记录关联问题9 2.4小试牛刀:Spark shell和SparkContext10 2.5把数据从集群上获取到客户端15 2.6把代码从客户端发送到集群18 2.7用元组和case class对数据进行结构化19 2.8聚合23 2.9创建直方图24 2.10连续变量的概要统计25 2.11为计算概要信息创建可重用的代码26 2.12变量的选择和评分简介30 2.13小结31 第3章音乐推荐和Audioscrobbler数据集33 3.1数据集34 3.2交替最小二乘推荐算法35 3.3准备数据37 3.4构建第一个模型39 3.5逐个检查推荐结果42 3.6评价推荐质量43 3.7计算AUC44 3.8选择超参数46 3.9产生推荐48 3.10小结49 第4章 用决策树算法预测森林植被51 4.1回归简介52 4.2向量和特征52 4.3样本训练53 4.4决策树和决策森林54 4.5Covtype数据集56 4.6准备数据57 4.7第一棵决策树58 4.8决策树的超参数62 4.9决策树调优63 4.10重谈类别型特征65 4.11随机决策森林67 4.12进行预测69 4.13小结69 第5章基于K均值聚类的网络流量异常检测71 5.1异常检测72 5.2K均值聚类72 5.3网络入侵73 5.4KDD Cup 1999数据集73 5.5初步尝试聚类74 5.6K 的选择76 5.7基于R的可视化79 5.8特征的规范化81 5.9类别型变量83 5.10利用标号的熵信息84 5.11聚类实战85 5.12小结86 第6章基于潜在语义分析算法分析维基百科89 6.1词项-文档矩阵90 6.2获取数据91 6.3分析和准备数据92 6.4词形归并93 6.5计算TF-IDF94 6.6奇异值分解97 6.7找出重要的概念98 6.8基于低维近似的查询和评分101 6.9词项-词项相关度102 6.10文档-文档相关度103 6.11词项-文档相关度105 6.12多词项查询106 6.13小结107 第7章用GraphX分析伴生网络109 7.1对MEDLINE文献引用索引的网络分析110 7.2获取数据111 7.3用Scala XML工具解析XML文档113 7.4分析MeSH主要主题及其伴生关系114 7.5用GraphX来建立一个伴生网络116 7.6理解网络结构119 7.6.1连通组件119 7.6.2度的分布122 7.7过滤噪声边124 7.7.1处理EdgeTriplet125 7.7.2分析去掉噪声边的子图126 7.8小世界网络127 7.8.1系和聚类系数128 7.8.2用Pregel计算平均路径长度129 7.9小结133 第8章纽约出租车轨迹的空间和时间数据分析135 8.1数据的获取136 8.2基于Spark的时间和空间数据分析136 8.3基于JodaTime和NScalaTime的时间数据处理137 8.4基于Esri Geometry API和Spray的地理空间数据处理138 8.4.1认识Esri Geometry API139 8.4.2GeoJSON简介140 8.5纽约市出租车客运数据的预处理142 8.5.1大规模数据中的非法记录处理143 8.5.2地理空间分析147 8.6基于Spark的会话分析149 8.7小结153 第9章基于蒙特卡罗模拟的金融风险评估155 9.1术语156 9.2VaR计算方法157 9.2.1方差-协方差法157 9.2.2历史模拟法157 9.2.3蒙特卡罗模拟法157 9.3我们的模型158 9.4获取数据158 9.5数据预处理159 9.6确定市场因素的权重162 9.7采样164 9.8运行试验167 9.9回报分布的可视化170 9.10结果的评估171 9.11小结173 第10章基因数据分析和BDG项目175 10.1分离存储与模型176 10.2用ADAM CLI导入基因学数据178 10.3从ENCODE数据预测转录因子结合位点185 10.4查询1000 Genomes项目中的基因型191 10.5小结193 第11章基于PySpark和Thunder的神经图像数据分析195 11.1PySpark简介196 11.2Thunder工具包概况和安装199 11.3用Thunder加载数据200 11.4用Thunder对神经元进行分类207 11.5小结211 附录ASpark进阶213 附录B即将发布的MLlib Pipelines API221 作者介绍226 封面介绍226 · · · · · · (收起) "Spark高级数据分析"试读· · · · · · 作者:Sandy Ryza (数据应用)就像香肠,最好别看见它们是怎么做出来的。 ——Otto von Bismarck ? 用数千个特征和数十亿个交易来构建信用卡欺诈检测模型 ? 向数百万用户智能地推荐数百万产品 ? 通过模拟包含数百万金融工具的投资组合来评估金融风险 ? 轻松地操作成千上万个人类基因的相关数据以发现致病基因 5 到10 年前想要完成上述任务困难重重.. |
|
熟悉论坛请点击新手指南
|
|
| 下载说明 | |
|
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。 2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。 3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。 (如有侵权,欢迎举报) |
|
京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明