大数据？空话还是技术？

5关注
70粉丝

已卖：89份资源

院士

42%

还不是VIP/贵宾

-

0%

威望: 3 级
论坛币: 64039 个
通用积分: 8795.3309
学术水平: 196 点
热心指数: 379 点
信用等级: 224 点
经验: 64258 点
帖子: 1451
精华: 5
在线时间: 3198 小时
注册时间: 2014-1-15
最后登录: 2025-10-31

楼主

easy_zj

发表于 2015-2-7 09:53:26 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

hadoop有三种模式，即单机模式、伪分布模式和集群模式，对这三种模式的效率分析有利于读者更进一步的了解hadoop及大数据分析师。对于这三种模式的安装，在经管之家的大数据培训会详细介绍并要求学员掌握。

比较这三种模式的效率，可以通过一个hadoop的例子进行比较分析。

一、hadoop的例子--蒙特卡罗法求π值介绍

1. 蒙特卡罗法求π值的实验例子

讲hadoop一般都喜欢举蒙特卡罗法求PI值的例子，这个例子的起源，要追溯到1777年，古稀之年的蒲丰（法国数学家、自然科学家）在家中请来很多客人玩投针游戏（针长是线距之半），他事先没有给客人讲与π有关的事。客人们虽然不知道主人的用意，但是都参加了游戏。他们共投针2212次，其中704次相交。蒲丰说，2212/704=3.142，这就是π值。这着实让到场的客人惊喜不已。

以上这个例子是著名的蒲丰投针实验，更详细的过程，读者也可以参看神奇数学中的投针游戏视频：http://my.tv.sohu.com/us/155377172/59974471.shtml，更形象的把握这个例子。

2. 蒙特卡罗法

蒙特卡罗法是以概率和统计理论方法为基础的一种计算方法。将所求解的问题同一定的概率模型相联系，用电子计算机实现统计模拟或抽样，以获得问题的近似解。为象征性地表明这一方法的概率统计特征，故借用赌城蒙特卡罗命名。又称统计模拟法、随机抽样技术。由S.M.乌拉姆和J.冯·诺伊曼在20世纪40年代为研制核武器而首先提出。简单的说就是指用统计模拟实验的办法求得问题的近似解。比如hadoop的examples中计算π的方法，就是使用大量实验求得π值的近似解。

3. hadoop中计算π的方法

hadoop的examples中的计算π的方法属于是采用大量采样的统计学方法，属于计算密集型的工作。该方法的JAVA文件位于hadoop-mapreduce-examples项目下（hadoop源代码项目如何查看会在人大经济论坛的大数据培训中讲到），文件名为QuasiMonterCarlo.java。该方法有两个参数，第1个指的是要运行map任务的个数，第2个数字指的是每个map任务，要投掷的次数，2个参数的乘积就是总的投掷次数。

在hadoop的三种模式下，都可以近似地计算π值。三种模式安装好后，使用如下命令即可计算π值：

./bin/hadoop jar./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar pi 10 20

命令中设置map任务的个数为10个，每个map上投掷的次数为20次。实验中，单机模式和伪分布模式都使用一台计算机，由于条件的限制，集群模式仅使用三台计算机，所有这些计算机的配置都是一样的。

二、对三种模式运行效率比较的描述性分析

将上述命令在hadoop的三个模式上运行，得到运行结果如下三个图所示：

1.单机模式

2.伪分布模式

3.集群模式

从三个图上的运行结果可以看出，三种模式下，程序的运行时间呈逐渐上升的过程，如下图所示：

在200个样本量的情况下，随着模式的不同，运行时间在逐渐增加，在集群模式下，运行时间最长。说明在样本量很少，且集群结点数据很少的情况下，集群模式的运行效率低于单机模式或者伪分布模式。如果在集群结点很多（条件许可）的情况下，实验结果可能是另一个情形，但有一点是可以肯定的，就是hadoop可以实现单机的功能，但它在处理小规模数据时是没有优势的，因此读者在学习hadoop时一定要明确其在大数据时代才有用武之地这一特点，才能更好地学好hadoop。

三、对三种模式运行效率比较的统计分析

在描述性分析中，我们只是感性地了解了hadoop的集群模式在处理小数据时的劣势，无法对其得出科学性论断。一般的大数据工程师也都是仅限于此，不知道也不会进行更深入的分析。将上述实验过程在三个模式中均运行11次（本文只是作为一种示例，展示大数据分析的思想，仅采样11次，感兴趣的读者可以进行多次实验，在人大经济论坛的培训中会以作业的形式要求学员进行更多次数的采样），得到样本数据如下：

	1	2	3	4	5	6	7	8	9	10	11
单机	1.392	1.359	1.493	2.485	1.447	2.496	2.055	1.411	1.404	1.381	1.451
伪分布	3.764	2.477	2.467	2.397	2.443	3.019	2.475	2.417	2.454	2.566	2.419
集群	103.424	107.096	60.931	96.058	117.477	42.444	87.871	24.747	20.696	19.753	52.096

对样本数据使用SPSS进行方差分析（为什么选择方差分析，和运行软件过程，在培训时者会有涉及），得到的实验结果如下： [td]

Descriptives
运行时间
	N	Mean	Std. Deviation	Std. Error	95% Confidence Interval for Mean		Minimum	Maximum
	N	Mean	Std. Deviation	Std. Error	Lower Bound	Upper Bound	Minimum	Maximum
1	11	1.67036	.449345	.135483	1.36849	1.97224	1.359	2.496
2	11	2.62709	.415380	.125242	2.34803	2.90615	2.397	3.764
3	11	66.59936	37.126998	11.194211	41.65711	91.54162	19.753	117.477
Total	33	23.63227	37.188178	6.473631	10.44592	36.81863	1.359	117.477

[td]

Test of Homogeneity of Variances
运行时间
Levene Statistic	df1	df2	Sig.
53.241	2	30	.000

[td]

ANOVA
运行时间
	Sum of Squares	df	Mean Square	F	Sig.
Between Groups	30466.854	2	15233.427	33.145	.000
Within Groups	13787.884	30	459.596
Total	44254.738	32

[td]

Multiple Comparisons
Dependent Variable:运行时间
	(I) 模式	(J) 模式	Mean Difference (I-J)	Std. Error	Sig.	95% Confidence Interval
	(I) 模式	(J) 模式	Mean Difference (I-J)	Std. Error	Sig.	Lower Bound	Upper Bound
LSD	1	2	-.956727	9.141276	.917	-19.62570	17.71225
	1	3	-64.929000*	9.141276	.000	-83.59798	-46.26002
	2	1	.956727	9.141276	.917	-17.71225	19.62570
	2	3	-63.972273*	9.141276	.000	-82.64125	-45.30330
	3	1	64.929000*	9.141276	.000	46.26002	83.59798
	3	2	63.972273*	9.141276	.000	45.30330	82.64125
Tamhane	1	2	-.956727*	.184502	.000	-1.43757	-.47588
	1	3	-64.929000*	11.195031	.001	-96.94669	-32.91131
	2	1	.956727*	.184502	.000	.47588	1.43757
	2	3	-63.972273*	11.194912	.001	-95.98989	-31.95466
	3	1	64.929000*	11.195031	.001	32.91131	96.94669
	3	2	63.972273*	11.194912	.001	31.95466	95.98989
*. The mean difference is significant at the 0.05 level.

   从上面的实验结果数据可以看出，模型具有显著的统计学意义，而且在95%或者更高的可信度的概率保证程度下，可以得出三种模式的运行效率有显著差异的结论。当然笔者在现有的硬件环境下，集群模式的运行效率是较差的，这也更好地提示读者需要更好地理解hadoop的应用条件。读者可在此基础上，增加map个数和投掷次数，并增加集群的设备个数，当数据量达到海量程度的时候，集群模式将优于单机模式，本文由于条件的限制，就不再展开，此处仅描述其实验和分析过程，以供读者参考。

四、大数据分析师与大数据工程师的思考
   【工程师之论】 由于hadoop架构基于java语言，使得最早进入这个行业的都是JAVA程序员，但他们的宿命就在于他们太IT了，因此他们只能是大数据工程师。一般来讲，大数据工程师只会对三种模式运行效率比较的描述性分析，很难进行多次实验数据的数据分析。当发现上述结论时，他们更倾向于将结果以图表的形式告诉决策者，或者用更深的计算机术语进行描述问题的原因，或者追求更好的程序方面的调优。
   【分析师之论】有一点我们是可以肯定的，由于计算机运行过程的随机性，因此每次运行的结果都是随机的，根据此一特点，因此每一次程序运行的结果都是随机实验，得到的运行时间都是一个随机抽样，这样在比较三种模式的运行效率时，必须使用统计学中抽样估计方法进行分析，因此作为一名大数据分析师，此时应该做的是进行多次的随机抽样，并选择方差分析进行统计分析，最后得出一个科学的结论。

五、结论
   通过本例，除了认识了hadoop三种模式下运行效率的差距，我们还应更深刻体会大数据分析师和大数据工程师的区别，那就是否具有数据分析的思维。作为一名优秀的大数据分析师，应拥有数据分析的思维，才能得出更科学的企业运营需要的结论，为企业创造更多的价值。在培训大数据分析师时，应更多的引导学员进行深入细致的统计分析，这一点也是经管之家hadoop大数据培训的一大特色。

2015年2月7日

经管之家大数据讲师团

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享2 收藏83 回帖

关键词：大数据 descriptive significant Homogeneity comparisons Hadoop 大数据大数据分析大数据培训 Hadoop培训

回帖推荐

littlelianglian 发表于134楼查看完整内容

hadoop大数据分析课程，本周末开课！欢迎报名咨询：https://bbs.pinggu.org/thread-3516762-1-1.html

已有 5 人评分	经验	学术水平	热心指数	收起理由
狂热的爱好者			+ 2	精彩帖子
shanshantz	+ 80			精彩帖子
静水深流	+ 20			鼓励积极发帖讨论
zl89	+ 60			精彩帖子
zhuosn		+ 1		热心帮助其他会员

总评分: 经验 + 160 学术水平 + 1 热心指数 + 2 查看全部评分

本帖被以下文库推荐

· 精华热门帖子|主题: 1618, 订阅: 45

沙发

littlelianglian 发表于 2015-2-7 11:07:06

Hadoop大数据分析师认证培训：https://bbs.pinggu.org/thread-3516762-1-1.html

藤椅

Still..

发表于 2015-2-7 11:40:14

很专业的分析，会大数据的从不侃大数据——实用派

板凳

nicholaswz

发表于 2015-2-7 11:42:20

这么专业的帖子必须帮顶

报纸

easy_zj

发表于 2015-2-7 11:44:08

nicholaswz 发表于 2015-2-7 11:42
这么专业的帖子必须帮顶

地板

zengxia316

发表于 2015-2-7 11:45:23

大数据Hadoop与统计分析结合在一起，用技术得到真理。

7楼

人脉引爆点

发表于 2015-2-7 11:46:14

大数据已经进入我们的生活

8楼

kidking1 发表于 2015-2-7 12:01:46

回帖奖励 +3

谢谢楼主，太感谢

9楼

meng山楂树 发表于 2015-2-7 12:04:42

回帖奖励 +3

10楼

wuzubin123 发表于 2015-2-7 12:08:22

回帖奖励 +3

谢谢分享

[Hadoop] 大数据？空话还是技术？ [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

回帖推荐

本帖被以下文库推荐

回帖奖励 +3

回帖奖励 +3

回帖奖励 +3

浏览过的帖子

浏览过的版块

一级伯乐勋章

初级学术勋章

初级信用勋章

中级学术勋章

初级热心勋章

中级热心勋章

特级热心勋章

贵宾1年续费勋章

中级校园大使

20周年荣誉勋章

本版微信群

[Hadoop] 大数据？空话还是技术？ [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

回帖推荐

本帖被以下文库推荐

回帖奖励 +3

回帖奖励 +3

回帖奖励 +3

浏览过的帖子

浏览过的版块

一级伯乐勋章

初级学术勋章

初级信用勋章

中级学术勋章

初级热心勋章

中级热心勋章

特级热心勋章

贵宾1年续费勋章

中级校园大使

20周年荣誉勋章

本版微信群

扫码加我拉你入群