请选择 进入手机版 | 继续访问电脑版
楼主: tanxinwei
3674 11

R语言为Hadoop注入统计血脉 [推广有奖]

  • 3关注
  • 7粉丝

博士生

44%

还不是VIP/贵宾

-

威望
0
论坛币
-16130 个
通用积分
1.0000
学术水平
18 点
热心指数
19 点
信用等级
12 点
经验
5631 点
帖子
132
精华
0
在线时间
246 小时
注册时间
2012-11-28
最后登录
2018-12-7

tanxinwei 发表于 2014-6-9 16:50:19 |显示全部楼层 |坛友微信交流群

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

R语言为Hadoop注入统计血脉

写过几篇关于R Hadoop的技术性文章,都是从统计的角度,介绍如何让R语言利用Hadoop处理大数据。今天决定反过来,从计算机开发人员的角度,介绍如何让Hadoop结合R语言,能做统计分析的事情。

1. R语言介绍

省略,人大经济论坛包含R语言版块,很详细,课自行查看。

2. Hadoop介绍

前面有文章已经有过解释,在这里不再详述。

3. 为什么要让Hadoop结合R语言?

前面两章,R语言介绍和Hadoop介绍,让我们体会到了,两种技术在各自领域的强大。很多开发人员在计算机的角度,都会提出下面2个问题。

问题1: Hadoop的家族如此之强大,为什么还要结合R语言?

问题2: Mahout同样可以做数据挖掘和机器学习,和R语言的区别是什么?

下面我尝试着做一个解答:

问题1: Hadoop的家族如此之强大,为什么还要结合R语言?

a. Hadoop家族的强大之处,在于对大数据的处理,让原来的不可能(TB,PB数据量计算),成为了可能。

b. R语言的强大之处,在于统计分析,在没有Hadoop之前,我们对于大数据的处理,要取样本,假设检验,做回归,长久以来R语言都是统计学家专属的工具。

c. 从a和b两点,我们可以看出,hadoop重点是全量数据分析,而R语言重点是样本数据分析。 两种技术放在一起,刚好是最长补短!

d. 模拟场景:对1PB的新闻网站访问日志做分析,预测未来流量变化

d1:用R语言,通过分析少量数据,对业务目标建回归建模,并定义指标。

d2:用Hadoop从海量日志数据中,提取指标数据

d3:用R语言模型,对指标数据进行测试和调优

d4:用Hadoop分步式算法,重写R语言的模型,部署上线

这个场景中,R和Hadoop分别都起着非常重要的作用。以计算机开发人员的思路,所有有事情都用Hadoop去做,没有数据建模和证明,”预测的结果”一定是有问题的。以统计人员的思路,所有的事情都用R去做,以抽样方式,得到的“预测的结果”也一定是有问题的。所以让二者结合,是产界业的必然的导向,也是产界业和学术界的交集,同时也为交叉学科的人才提供了无限广阔的想象空间。

问题2: Mahout同样可以做数据挖掘和机器学习,和R语言的区别是什么?

a. Mahout是基于Hadoop的数据挖掘和机器学习的算法框架,Mahout的重点同样是解决大数据的计算的问题。

b. Mahout目前已支持的算法包括,协同过滤,推荐算法,聚类算法,分类算法,LDA, 朴素bayes,随机森林。上面的算法中,大部分都是距离的算法,可以通过矩阵分解后,充分利用MapReduce的并行计算框架,高效地完成计算任务。

c. Mahout的空白点,还有很多的数据挖掘算法,很难实现MapReduce并行化。Mahout的现有模型,都是通用模型,直接用到的项目中,计算结果只会比随机结果好一点点。Mahout二次开发,要求有深厚的JAVA和Hadoop的技术基础,最好兼有“线性代数”,“概率统计”,“算法导论”等的基础知识。所以想玩转Mahout真的不是一件容易的事情。

d. R语言同样提供了Mahout支持的约大多数算法(除专有算法),并且还支持大量的Mahout不支持的算法,算法的增长速度比mahout快N倍。并且开发简单,参数配置灵活,对小型数据集运算速度非常快。

虽然,Mahout同样可以做数据挖掘和机器学习,但是和R语言的擅长领域并不重合。集百家之长,在适合的领域选择合适的技术,才能真正地“保质保量”做软件。

4. 如何让Hadoop结合R语言?

从上一节我们看到,Hadoop和R语言是可以互补的,但所介绍的场景都是Hadoop和R语言的分别处理各自的数据。

一旦市场有需求,自然会有商家填补这个空白。

1). R Hadoop

R Hadoop是一款Hadoop和R语言的结合的产品,由RevolutionAnalytics公司开发,并将代码开源到github社区上面。RHadoop包含三个R包 (rmr,rhdfs,rhbase),分别是对应Hadoop系统架构中的,MapReduce,HDFS, HBase 三个部分。

2). RHive

RHive是一款通过R语言直接访问Hive的工具包,是由NexR一个韩国公司研发的。用RHive从历史数据中提取逆回购信息

3). 重写Mahout

用R语言重写Mahout的实现也是一种结合的思路,我也做过相关的尝试。

4).Hadoop调用R

上面说的都是R如何调用Hadoop,当然我们也可以反相操作,打通JAVA和R的连接通道,让Hadoop调用R的函数。但是,这部分还没有商家做出成形的产品。

5. R和Hadoop在实际中的案例

R和Hadoop的结合,技术门槛还是有点高的。对于一个人来说,不仅要掌握Linux, Java, Hadoop, R的技术,还要具备软件开发,算法,概率统计,线性代数,数据可视化,行业背景的一些基本素质。

在公司部署这套环境,同样需要多个部门,多种人才的的配合。Hadoop运维,Hadoop算法研发,R语言建模,R语言MapReduce化,软件开发,测试等等。。。

所以,这样的案例并不太多。

我做过一些尝试和努力,已经整理成文章的有3个项目,文章中仅仅是实现思路。

展位未来

对于R和Hadoop的结合,在近几年,肯定会生成爆发式的增长的。但由于跨学科会造成技术壁垒,人才会远远跟不上市场的需求。

所以,肯定会有更多的大数据工具,被发明!机会就在我们的手中,也许明天你的创新,就是我们追逐的方向!!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Hadoop Had R语言 Revolution MapReduce R语言 Hadoop 统计 大数据

已有 1 人评分经验 论坛币 学术水平 热心指数 收起 理由
aongao + 10 + 10 + 1 + 1 鼓励积极发帖讨论

总评分: 经验 + 10  论坛币 + 10  学术水平 + 1  热心指数 + 1   查看全部评分

本帖被以下文库推荐

1048812787 发表于 2014-6-30 17:43:18 |显示全部楼层 |坛友微信交流群
great!!!

使用道具

aongao 发表于 2014-7-7 11:45:16 |显示全部楼层 |坛友微信交流群
Hadoop似乎只针对大企业

使用道具

ReneeD 发表于 2014-7-10 09:39:27 |显示全部楼层 |坛友微信交流群
开源不错啊,都。
希望能一起交流学习与进步啊

使用道具

g00125520 发表于 2014-7-28 17:44:36 |显示全部楼层 |坛友微信交流群

使用道具

刚开始学R,然后学hadoop
已有 1 人评分论坛币 热心指数 收起 理由
aongao + 5 + 1 鼓励积极发帖讨论

总评分: 论坛币 + 5  热心指数 + 1   查看全部评分

使用道具

qzlzwhx 发表于 2014-8-5 16:53:10 |显示全部楼层 |坛友微信交流群
very good!学习了。。。。看来学习之路任重道远。。。

使用道具

EchoEstelle 发表于 2014-8-25 21:39:27 |显示全部楼层 |坛友微信交流群
全数据亦是样本

使用道具

xuyongbin08 发表于 2014-8-30 15:04:40 |显示全部楼层 |坛友微信交流群
不明觉厉[em17]

使用道具

olympic 发表于 2014-8-31 21:18:16 |显示全部楼层 |坛友微信交流群

已有 1 人评分经验 热心指数 收起 理由
aongao + 20 + 2 图片不错

总评分: 经验 + 20  热心指数 + 2   查看全部评分

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-16 14:39