楼主: wangxiyue123
1687 2

[Hadoop] MIT做了一个全自动大数据分析 [推广有奖]

  • 0关注
  • 3粉丝

等待验证会员

博士生

63%

还不是VIP/贵宾

-

威望
0
论坛币
798 个
通用积分
0
学术水平
0 点
热心指数
3 点
信用等级
0 点
经验
2450 点
帖子
162
精华
0
在线时间
26 小时
注册时间
2015-9-22
最后登录
2015-10-22

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
MIT做了一个全自动大数据分析

信息爆炸引爆了大数据时代的到来,前一两年大数据到达了炒作的高峰,而马云则称今后 30年 属于数据技术(DT)。但是最近一段时间大数据似乎没有那么大的动静了,这固然有技术炒作周期曲线的规律作用,也跟大数据遭遇到的一些瓶颈有关。

这个最大的瓶颈之一便是人。隐藏在大数据里面的模式挖掘很长程度上需要依靠人的建模和直觉,但是数据科学家的数量却跟不上大数据的规模发展。不过 MIT 正在为打破这个瓶颈而努力,其研发的一款名为 Data Science Machine(数据科学机器)的软件实现了无人参与下的大数据分析,经过对比发现,其表现已经与数据分析师不分高下。

Data Science Machine 由 MIT CSAIL 的 Max Kanter 和他的指导老师 Kalyan Veeramachaneni 等人设计。其关键突破是它不仅会寻找模式,还会自己设计特征集。学机器学习的人都知道特征工程的重要性。特征工程是指利用数据的领域知识来创建特征以便让机器学习算法可以工作的过程,这个过程往往需要人的直觉。而 Data Science Machine 却利用了关系数据库的不同表间的结构化关系作为线索来进行特征构造,从中生成一批候选的特征集,然后再通过分析值的相关性来缩小特征集的范围,从而免去了人的参与。然后,Data Science Machine 还会把这个特征集运用到样本数据上,再用不同的方式重新组合特征来优化预测的准确率。

为了测试这套系统的第一款原型,研究人员让它参与了三项数据科学方面的竞赛,竞赛的目标是在不常见的数据集中寻找出预测性的模式。三场竞赛供有 906 支队伍参加,Data Science Machine 的成绩比其中的 615 支队伍都要高。


在准确率方面,Data Science Machine 在其中两场竞赛的准确率分别达到了 94%和 96%。另外一场的准确率略低,为 87%。但是效率方面却是人类不能比的,因为 Data Science Machine 得出结果用时在 2-12 小时之间,而人类团队的预测性算法往往要折腾数月的时间。

目前 Data Science Machine 已能对哪些学生有可能退出 MIT 的在线课程做出分析,它选出的两个特征分析学生开始写作业时间的早晚,以及在网上学习课程的时间长短。尽管这种能力看起来还不够强大,但是这只是开始,一旦机器具备真正的自我学习能力,在计算能力指数增长的作用下,其进化速度将是我们难以想象的。


为培养顺应时代发展的新型大数据分析人才,

人大经济论坛特邀业界名师开设CDA数据分析师培训课程

详情点击链接了解:

CDA大数据分析培训:http://cda.pinggu.org/bigdata.html


CDA大数据分析就业班:http://cda.pinggu.org/bigdata-jy.html



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:大数据分析 数据分析 大数据 MIT 全自动 科学家 最大的 高峰 规模 技术

已有 1 人评分论坛币 收起 理由
daazx + 20 精彩帖子

总评分: 论坛币 + 20   查看全部评分

沙发
daazx 在职认证  发表于 2015-10-29 10:43:12 |只看作者 |坛友微信交流群
厉害!!!!

使用道具

藤椅
cranewind 发表于 2015-11-6 15:28:32 |只看作者 |坛友微信交流群
空中花园

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-2 16:01