楼主: hq333
4542 0

[Hadoop] MapReduce2.0源码分析与实战编程 [推广有奖]

  • 0关注
  • 0粉丝

高中生

10%

还不是VIP/贵宾

-

威望
0
论坛币
51 个
通用积分
0
学术水平
2 点
热心指数
6 点
信用等级
3 点
经验
343 点
帖子
20
精华
0
在线时间
17 小时
注册时间
2014-12-4
最后登录
2017-7-3

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
MapReduce2.0源码分析与实战编程 ,非扫描,文字版(10章内容,全)
下载: http://pan.baidu.com/s/1sjK53sx
简介:
  《mapreduce 2.0源码分析与编程实战》比较系统地介绍了新一代mapreduce 2.0的理论体系、架构和程序设计方法。全书分为10章,系统地介绍了hdfs存储系统,hadoop的文件i/o系统,mapreduce 2.0的框架结构和源码分析,mapreduce 2.0的配置与测试,mapreduce 2.0运行流程,mapreduce 2.0高级程序设计以及相关特性等内容。《mapreduce 2.0源码分析与编程实战》最后部分介绍了数据挖掘的初步知识,以及不同应用类型的mapreduce 2.0编程实战。
  《mapreduce 2.0源码分析与编程实战》强调理论联系实际,帮助读者在掌握mapreduce 2.0基本知识和特性的基础上,培养实际编程和解决大数据处理相关问题的能力。《mapreduce 2.0源码分析与编程实战》可作为学习mapreduce 2.0的源码、mapreduce 2.0程序设计、数据挖掘、机器学习等相关内容的程序设计人员的培训和自学读物,也可以作为高等院校相关专业的教学辅导书。

节选:
  Hadoop 是一个有效的数据处理工具。其充分利集群的能力对数据进行处理,其核心就
是 MapReduce 数据处理,通过对数据的输入、分拆与组合,可以有效的提高数据管理的安
全性,同时能够很好的访问管理的数据。 ……如果将 Hadoop 比作一头大象的话,那么 MapReduce 就是那头大象的大脑。MapReduce 是 Hadoop 核心编程模型。在 Hadoop 中,其数据处理核心为 MapReduce 程序设计模型。

目录:

Hadoop 技术详解:MapReduce2.0 源码分析与实战编程

第 1 章  大象也会跳舞
1.1 大数据时代
1.2 大数据分析时代
1.3 简单、粗暴、有效-这就是 Hadoop
1.4 MapReduce 与 Hadoop
1.5 看、大象也会跳舞
1.6 本章小结

第 2 章  大象的肚子——HDFS 文件系统详解

2.1  HDFS 基础详解  
2.1.1 HDFS 性能详解  

2.1.2 HDFS 架构与基本存储单元
2.2  HDFS 数据存取流程分析

2.2.1 HDFS 数据存储位置与复制详解

2.2.2 HDFS 输入过程分析
2.2.3 HDFS 输出过程分析
2.3  HDFS 命令行操作详解

2.3.1 HDFS 通用命令行操作
2.3.2 HDFS 文件基本命令行操作
2.3.3 HDFS 文件访问权限详解
2.4  通过 Web 浏览 HDFS 文件
2.5  HDFS 接口使用详解

2.5.1 使用 FileSystem API 操作 HDFS 中内容
2.5.2 使用 FileSystem API 读取数据详解
2.5.3 使用 FileSystem API 写入数据详解
2.6 HDFS 文件同步与并发访问
2.6  本章小结

第 3 章  吃下去吐出来——Hadoop 文件 I/O 系统详解

3.1  Hadoop 的压缩类型介绍
3.2  Hadoop 的压缩类库

3.2.1 从一个简单的例子开始
3.2.2 CompressionCodec 接口
3.2.3 CompressionCodecFactory 类详解
3.2.4 压缩池
3.2.5 在 MapReduce 中使用压缩
3.3  I/O 中序列化类型详解
3.3.1 Text 类详解  
3.3.2 IntWritable 类详解  
3.3.3 ObjectWritable 类详解
3.3.4 NullWritable 类详解
3.3.5 ByteWritable 类详解
3.4  实现自定义的 Writable 类型
3.4.1 Writable 接口
3.4.2 WritableComparable 接口与 RawComparator 接口
3.4.3 自定义的 Writable 类
3.4.4 为了更快的比较!
3.5  Hadoop 中小文件处理详解
3.5.1 SequenceFile 详解
3.5.2 MapFile 详解
3.5.3 SetFile、ArrayFile 与 BloomMapFile 类型介绍

3.6  本章小结
第 4 章  大象的大脑——MapReduce 框架结构与源码分析
4.1  MapReduce 框架结构与源码分析

4.1.1 MapReduce 框架分析与执行过程详解

4.1.2 MapReduce 输入输出与源码分析
4.1.3 MapReduce 中 Job 类详解
4.2  使用 MapReduce 计数的应用示例
4.2.1 准备工作
4.2.2 MapReduce 过程分析
4.2.3 计数程序的 MapReduce 实现

4.2.4 计数程序的 main 方法

4.2.5 注意事项
4.2.6 运行结果

4.2.7 Mapper 中的 Combiner 详解
4.3  Map 相关子类介绍
4.3.1 TokenCounterMapper 类
4.3.2 InverseMapper 类
4.3.2 MultithreadedMapper 类
4.4  本章小结

第 5 章  深入!MapReduce 配置与测试
5.1  MapReduce 环境变量配置详解
5.1.1 配置新的配置文件
5.1.2 修改已有的配置文件
5.1.3 辅助类 ToolRunner、Configured 详解
5.1.4 使用 Maven POM 配置 MapReduce 测试环境
5.2 使用 MRUnit 对 MapReduce 进行测试
5.2.1 MRUnit 简介与使用
5.2.2 使用 MRUnit 完成 Mapper 单元测试
5.2.3 使用 MRUnit 完成 Reducer 单元测试
5.2.4 使用 MRUnit 完成 MapReduce 单元测试
5.3  在本地磁盘上进行 MapReduce 测试
5.3.1 Configuration 类源代码分析
5.3.2 在 Eclipse 中配置 Hadoop 插件
5.3.3 编写本地测试代码
5.3.4 编写不同环境下的 MapReduce 测试代码
5.4  对集群上运行的 MapReduce 程序
5.4.1 在 Hadoop 控制台中查看结果


5.4.2 通过 Web 接口进行任务分析
5.5  通过输出信息进行 MapReduce 测试
5.5.1 使用计数器的 MapReduce 程序设计
5.5.2 通过 Web 接口查看计数器
5.6  本章小结

第 6 章  大象的思考流程——MapReduce 运行流程详解

6.1  经典 MapReduce 任务的工作流程
6.1.1 任务的初始化
6.1.2 任务的分配
6.1.3 任务的执行
6.1.4 任务的完成与状态更新
6.2  经典 MapReduce 任务异常处理详解
6.2.1 MapReduce 任务异常的处理方式

6.2.2 MapReduce 任务失败的处理方式
6.3  经典 MapReduce 任务的数据处理过程
6.3.1 Map 端的输入数据处理过程

6.3.2 Reduce 端的输入数据处理过程
6.3.3 JVM 重用与记录异常对应策略
6.4  MapReduce2.0(YARN)工作流程详解
6.4.1 YARN 概述
6.4.2 YARN 任务过程分析
6.4.3 YARN 的异常处理
6.5  本章小结

第 7 章  更强的大象-MapReduce 高级程序设计续
7.1  MapReduce 程序设计默认格式类型详解
7.1.1 map 与 reduce 方法的默认输入输出类型
7.1.2 自定义输入输出类型设置
7.1.3 自定义全局类型变量设置要求
7.1.4 默认的 MapReduce 程序设置
7.2  InputFormat 输入格式详解


7.2.1 输入记录与分区


7.2.2 InputFormat 源码及执行过程分析
7.2.2 实现自己的的 RecordReader 类  


7.2.3 自定义的 FileInputFormat 类
7.2.4 一些常用的 InputFormat 类详解
7.3  OutputFormat 输出格式详解
7.3.1 OutputFormat 默认输出格式
7.3.2 自定义 OutputFormat 输出格式
7.3.3 对 reduce 任务数进行设置


7.3.4 OutputFormat 分区类 Partitioner 详解
7.4  多种输入与输出使用介绍


7.4.1 MultipleInputs 多种输入方式详解
7.4.2 MultipleOututs 多种输出方式详解
7.5  本章小结


第 8 章  MapReduce 相关特性详解
8.1  MapReduce 计数器


8.1.1 Hadoop 框架内置的计数器
8.1.2 自定义计数器
8.1.3 动态计数器
8.1.4 获取计数器值
8.2  排序与查找
8.2.1 普通排序规与查找
8.2.2 使用 MapFile 进行排序与查找
8.3  对输出结果的值分组排序
8.3.1 准备工作
8.3.2 对结果进行分组处理
8.3.3 对键的二次排序
8.3.4 自定义输出分组
8.4  实战编程:使用二次排序自动查找最小值
8.4.1 思路分析
8.4.2 验证输入输出结果
8.4.3 对结果进行二次排序
8.4.4 对结果进行分组
8.4.5 分片处理排序与分组
8.4.6 验证结果
本章小结

第 9 章  啤酒与尿布—MapRecuce 连接与数据挖掘初步

9.1 对于同样格式数据进行 MapReduce 连接
9.2 对于不同格式数据进行 MapReduce 连接
9.3 不能说的秘密-啤酒与尿布


9.3.1 销售清单的秘密
9.3.2 设计程序


9.3.3 程序执行结果
9.4 数据挖掘初步

9.5 本章小结

第 10 章  MapReduce 实战编程及深度分析

10.1 实战编程:自定义数据库中读取数据

10.1.1 准备工作
10.1.2 程序分析
10.1.3 自定义 SQLInputFormat
10.1.4 使用自定义程序从数据库中读取数据
10.1.5 程序运行及数据分析
10.1.6 使用合并记录进行性能调优
10.2  实战编程:串联寻找共同转载微博
10.2.1 应用分析
10.2.2 第一步表转换
10.2.3 建立关注连接
10.2.4 自定义的 OutputFormat


10.2.5 串联解决共同转载微博
10.2.6 性能调优及后续处理
10.3  实战编程:云存储模型
10.3.1 应用分析
10.3.2 Tomcat 简介
10.3.3 配置 Tomcat 服务器
10.3.4 测试 Tomcat 服务器
10.3.5 在 Eclipse 中配置 Tomcat
10.3.6 创建云存储目录
10.3.7 获取云存储列表
10.3.8 将文件上传至数据云存储中
10.3.9 删除文件
10.3.10 下载云端存储文件
10.3.11 程序执行与性能调优
10.4  实战编程:多文档相似关键字排序与检索
10.4.1 应用分析
10.4.2 自定义任务处理类
10.4.3 程序执行及后续分析
10.5  实战编程:学生成绩整理与分组
10.5.1 应用分析
10.5.2 自定义的 ScoreWritable
10.5.3 自定义的 MapReduce
10.5.4 自定义的分组
10.5.5 程序运行结果
10.5.6 采用更多分组类型
10.6  本章小结



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:MapReduce reduce Pred Map edu

已有 3 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
moretc + 2 + 1 精彩帖子
statax + 10 + 2 精彩帖子
crystal8832 + 36 + 2 + 2 + 2 根据规定进行奖励

总评分: 论坛币 + 46  学术水平 + 2  热心指数 + 6  信用等级 + 3   查看全部评分

想深入学习
您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 04:59