[MATLAB] MapReduce 程序执行的详细过程 [推广有奖]

2关注
20粉丝

讲师

89%

还不是VIP/贵宾

威望: 1 级
论坛币: 7723 个
通用积分: 5271.8957
学术水平: 100 点
热心指数: 87 点
信用等级: 88 点
经验: 7331 点
帖子: 149
精华: 2
在线时间: 183 小时
注册时间: 2013-8-26
最后登录: 2023-4-16

楼主

凡星有梦

发表于 2015-3-11 14:31:26 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

2015-3-11 14:34:51 上传
下载附件 (118.17 KB)

MapReduce 执行过程       1.Job类初始化JobClient实例，JobClient中生成JobTracker的RPC实例，这样可以保持与JobTracker的通讯，JobTracker的地址和端口等都是外部配置的，通过Configuration对象读取并且传入。
      2.JobClient提交作业。
      3.JobClient生成作业目录。
      4.从本地拷贝 MapReduce 的作业jar文件
      5.如果DistributedCache中有需要的数据，从DistributedCache中拷贝这部分数据。
      6.根据InputFormat实例，实现输入数据的split，在作业目录上生成job.split和job.splitmetainfo文件。
      7.将配置文件写入到作业目录的job.xml文件中。
      8.JobClient和JobTracker通讯，提交作业。
      9.JobTracker将job加入到job队列中。
      10.JobTracker的TaskScheduler（任务调度器）对job队列进行调度。
      11.TaskTracker通过心跳和JobTracker保持联系，JobTracker收到后根据心跳带来的数据，判断是否可以分配给TaskTracker Task，TaskScheduler会对Task进行分配。
      12.TaskTracker启动TaskRunner实例，在TaskRunner中启动单独的JVM进行Mapper运行。
      13.Map端会从HDFS中读取输入数据，执行之后Map输出数据先是在内存当中，当达到阀值后，split到硬盘上面，在此过程中如果有combiner的话要进行combiner，当然sort是肯定要进行的。
      14.Map结束了，Reduce开始运行，从Map端拷贝数据，称为shuffle阶段，之后执行reduce输出结果数据。
      15.当jobtracker收到作业最后一个任务完成通知后，便把作业的状态设置为“完成”。
      16.在jobclient查询状态时，便知道任务已经完成，于是从runjob（）方法返回。

查看原文……