搜索
人大经济论坛 附件下载

附件下载

所在主题:
文件名:  R与Hadoop大数据分析实战.rar
资料下载链接地址: https://bbs.pinggu.org/a-2271036.html
本附件包括:
  • R与Hadoop大数据分析实战.pdf
附件大小:

作者: [印尼] VigneshPrajapati

出版社: 机械工业出版社

原作名: Big Data Analytics with R and Hadoop

出版年: 2014-11


内容简介

——————————

本书全面而系统地讲解了如何将R语言与Hadoop技术结合并应用于大数据分析,不仅系统且深入地阐释了R与Hadoop集成技术的工具、方法、原则和最佳实践,而且通过大量实践案例深入剖析各种常见问题,能为用户高效利用R语言与Hadoop技术进行大数据处理提供翔实指导。

全书分为四部分,共7章:第一部分(第1~2章)是基础知识,主要讲解R语言以及Hadoop的安装过程、计算原理和基本概念;第二部分(第3~4章)是初级应用,主要讲解RHIPE、RHadoop和streaming三种实现方案;第三部分(第5~6章)是高级实例,主要以RHadoop为技术背景,讲解多个实际应用案例;第四部分(第7章)介绍数据库连接,主要讲解在RHadoop下如何与各类数据库进行连接。

作者简介

——————————

Vignesh Prajapati 资深大数据分析师,现为Pingax公司顾问、Enjay公司软件工程师,精通R、Hadoop、Mahout、Pig、Hive等技术,在机器学习和大数据技术方面拥有丰富经验。目前他专注于利用大数据和云技术为客户提供有价值产品。

目录

——————————

目录

译者序

前言

审校者简介

致谢

第1章R和Hadoop入门 1

1.1安装R 2

1.2安装RStudio 3

1.3R语言的功能特征 3

1.3.1使用R程序包 3

1.3.2执行数据操作 3

1.3.3日渐增多的社区支持 4

1.3.4R语言数据建模 4

1.4Hadoop的安装 5

1.4.1不同的Hadoop模式 6

1.4.2Hadoop的安装步骤 6

1.5Hadoop的特点 12

1.5.1HDFS简介 13

1.5.2MapReduce简介 13

1.6HDFS和MapReduce架构14

1.6.1HDFS架构 14

1.6.2MapReduce架构 15

1.6.3通过图示了解HDFS和MapReduce架构 15

1.7Hadoop的子项目 16

1.8小结 19

第2章编写HadoopMapReduce程序20

2.1MapReduce基础概念20

2.2HadoopMapReduce技术简介22

2.2.1MapReduce中包含的实体 22

2.2.2MapReduce中的主要执行进程 23

2.2.3MapReduce的局限 25

2.2.4MapReduce 可以解决的问题 26

2.2.5使用Hadoop编程时用到不同的Java概念 26

2.3HadoopMapReduce原理27

2.3.1MapReduce对象 27

2.3.2MapReduce中实现Map阶段的执行单元数目 28

2.3.3MapReduce中实现Reduce阶段的执行单元数目 28

2.3.4MapReduce的数据流 28

2.3.5深入理解HadoopMapReduce 30

2.4编写HadoopMapReduce示例程序32

2.4.1MapReduce job运行的步骤 33

2.4.2MapReduce可解决的商业问题 38

2.5在R环境中编写Hadoop MapReduce程序的方式 39

2.5.1RHadoop 39

2.5.2RHIPE40

2.5.3Hadoopstreaming 40

2.6小结 40

第3章集成R和Hadoop 41

3.1RHIPE 42

3.1.1安装RHIPE 42

3.1.2RHIPE架构 44

3.1.3RHIPE实例 45

3.1.4RHIPE参考函数 48

3.2RHadoop 51

3.2.1RHadoop架构 51

3.2.2安装RHadoop 52

3.2.3RHadoop案例 53

3.2.4RHadoop参考函数 56

3.3小结 58

第4章HadoopStreaming中使用R 59

4.1HadoopStreaming基础概念 59

4.2使用R运行Hadoop streaming 62

4.2.1MapReduce应用程序基础 63

4.2.2如何编写MapReduce应用程序 65

4.2.3如何运行MapReduce应用程序 67

4.2.4如何浏览MapRecuce应用程序的输出69

4.2.5HadoopMapReduce脚本的基础R函数 70

4.2.6管理HadoopMapReduce任务 71

4.3R语言扩展包HadoopStreaming介绍 72

4.3.1hsTableReader函数73

4.3.2hsKeyValReader函数 75

4.3.3hasLineReader函数75

4.3.4运行Hadoopstreaming任务78

4.3.5执行HadoopStreaming任务 79

4.4小结 79

第5章利用R和Hadoop学习数据分析 80

5.1数据分析项目生命周期 80

5.1.1问题定义 81

5.1.2设计数据需求 81

5.1.3数据预处理 81

5.1.4数据分析 82

5.1.5数据可视化 82

5.2数据分析问题 83

5.2.1展示网页分类 83

5.2.2计算股市变动频率 92

5.2.3案例研究:预测推土机售价 98

5.3小结 107

第6章应用机器学习做大数据分析 108

6.1机器学习介绍 108

6.2有监督机器学习算法 109

6.2.1线性回归 109

6.2.2logistic回归 115

6.3无监督机器学习算法 118

6.4推荐算法 123

6.4.1在R中产生推荐商品的步骤 125

6.4.2使用R和Hadoop产生推荐商品 128

6.5小结 131

第7章从各种数据库中导入与导出数据 132

7.1文件型数据库 134

7.1.1不同类型的文件 134

7.1.2安装R包 134

7.1.3将数据导入R 134

7.1.4从R导出数据 135

7.2MySQL135

7.2.1安装MySQL 135

7.2.2安装RMySQL 136

7.2.3列出数据表及其结构 136

7.2.4导入数据进R 136

7.2.5数据操纵 137

7.3Excel 137

7.3.1安装Excel 138

7.3.2导入数据进R 138

7.3.3R和Excel的数据操纵 138

7.3.4导出数据到Excel 138

7.4MongoDB 138

7.4.1安装MongoDB 139

7.4.2安装rmongodb 141

7.4.3导入数据进R 141

7.4.4数据操纵 142

7.5SQLite 143

7.5.1SQLite的特性 143

7.5.2安装SQLite 144

7.5.3安装RSQLite 144

7.5.4将数据导师入R 144

7.5.5数据操纵 145

7.6PostgreSQL145

7.6.1PostgreSQL的特性 145

7.6.2安装PostgreSQL 145

7.6.3安装RPostgreSQL 146

7.6.4从R导出数据 146

7.7Hive 147

7.7.1Hive的特性 147

7.7.2安装Hive 147

7.7.3安装RHive 149

7.7.4RHive操作 149

7.8HBase 150

7.8.1HBase的特性 150

7.8.2安装HBase 151

7.8.3安装Thrift152

7.8.4安装RHBase 153

7.8.5导入数据进R 153

7.8.6数据操纵 153

7.9小结 154

附录参考资源 155




    熟悉论坛请点击新手指南
下载说明
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。
2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。
3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。
(如有侵权,欢迎举报)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

GMT+8, 2025-12-25 22:18