楼主: aongao
1701 7

数据科学家大调查:职业受挫数据多样性,吐槽Hadoop [推广有奖]

  • 5关注
  • 31粉丝

VIP

教授

52%

还不是VIP/贵宾

-

TA的文库  其他...

新能源&可持續發展

農業&经济

威望
1
论坛币
33743 个
通用积分
5631.2835
学术水平
153 点
热心指数
194 点
信用等级
114 点
经验
90678 点
帖子
626
精华
2
在线时间
1101 小时
注册时间
2014-1-20
最后登录
2022-4-13

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

数据科学家.png

经过无数权威媒体的反复轰炸,我们大致已经相信,数据科学家是21世纪最神秘最性感最多金的职业,他们是大数据时代数据炸弹的拆弹专家,企业数字化经营的发动机,他们的身价堪比NFL四分卫,而且,他们比昆仑山上的雪豹数量还少。


显然,数据科学家个个都是十八般数据分析武艺样样精通的绝世高手,但他们近来也有烦心事。不久前,开源数据库SciDB开发商Paradigm4进行的一项针对111名北美数据科学家的调查显示,71%的数据科学家认为数据来源的多样性(IT经理网记者此前曾与百度创始七剑客之一,酷我音乐CEO雷鸣讨论机器学习和大数据分析的最大挑战,他也认为是数据维度),而不是数据总量构成其职业最大威胁和挑战。


值得注意的是,只有48%的受访数据科学家表示他们在工作中曾使用过Hadoop或者Spark,高达76%的数据科学家抱怨Hadoop太慢,编程速度过慢,以及其他一些局限性。(参考阅读:Hadoop真特么难用

虽然Hadoop口碑不佳,但是有接近半数的数据科学家表示很难将数据存入传统关系数据库表中。Nexedi的首席执行官Jean-Paul Smets在接受IT经理网采访时也曾指出,大数据的真正难题其实并不是所谓的“大”,业界目前缺乏是通过使用高效的分布式运算法则来处理数据的软件,Hadoop过于依赖Java,而Java已经被Oracle牢牢控制。中国兴起的去IOE运动,实际上为Hadoop之外的大数据软件方案提供了良机


企业大数据进入复杂分析阶段

根据报告,有59%的数据科学家表示其所在企业已经开始采用更加复杂的分析技术,例如集群、机器学习、种量分析(Principal components analysis)、图论分析等高级分析技术分析数据,而不是局限于传统的BI报告。


还有15%的数据科学家表示计划在明年启用复杂分析技术,另有16%的数据科学家表示将在未来两年内采用复杂分析技术。

Hadoop被过度吹捧

Paradigm4的报告指出,Hadoop被过度吹捧成无所不能的,革命性的大数据解决方案,实际上Hadoop并不适用于需要进行复杂分析的大数据应用场景。

Hadoop的核心技术方法数据并行(data parallel),被Paradigm4称作“闹心的并行”。报告指出,复杂分析人物往往需要经常访问、处理和分享全体数据,并在数据处理中交叉沟通中间结果,而这恰恰是Hadoop MapReduce的软肋。

22%的受调查数据科学家表示Hadoop和Spark压根不适合他们的分析任务,此外还有35%的数据科学家在尝试Hadoop或Spark后停止使用这两项技术。


总结:

在快数据和机器学习为主要趋势的大数据潮流中,Hadoop作为开源系统,企业用户自主安装后,其性能优化有相当技术门槛。其实Hadoop系统也并非数据科学家反映得那样不堪用,Hadoop系统其实也可以快起来,例如老牌超算厂商Cray的Hadoop解决方案进行了软硬件调优,并且提供后继的技术支持,测试性能要高出很多倍,完全可以胜任基于图论分析这样的,复杂的“快数据”分析任务。


Paradigm4数据科学家调查报告中的一些亮点被浓缩在下面这张信息图中,供有兴趣的读者深究:

paradigm4-data-scientist-survey-infographic-100354377-large.idge_.jpg




   原文链接: 文章来自IT经理网

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Hadoop 数据科学家 数据科学 科学家 Had 科学家

本帖被以下文库推荐

沙发
ReneeD 发表于 2014-8-1 11:25:25 |只看作者 |坛友微信交流群

回帖奖励 +2

不错,
直观
已有 1 人评分经验 论坛币 热心指数 收起 理由
aongao + 60 + 10 + 2 对论坛有贡献

总评分: 经验 + 60  论坛币 + 10  热心指数 + 2   查看全部评分

使用道具

藤椅
flora210 发表于 2014-8-1 11:28:20 |只看作者 |坛友微信交流群

回帖奖励 +2

学习了!
已有 1 人评分论坛币 热心指数 收起 理由
aongao + 10 + 2 鼓励积极发帖讨论

总评分: 论坛币 + 10  热心指数 + 2   查看全部评分

使用道具

板凳
verayuan 发表于 2014-8-2 11:25:18 |只看作者 |坛友微信交流群

回帖奖励 +2

硅谷的现状, 。。。。

使用道具

报纸
fantuanxiaot 发表于 2014-8-3 09:46:50 |只看作者 |坛友微信交流群

回帖奖励 +2

受教了!!谢谢分享!!!

使用道具

地板
cloudoversea 发表于 2014-8-7 00:15:07 |只看作者 |坛友微信交流群
好文,谢谢分享。

使用道具

7
olympic 发表于 2015-2-22 23:34:34 |只看作者 |坛友微信交流群
Hadoop不快,编程也不快,有点被过度吹捧

使用道具

8
alice09122005 发表于 2015-4-3 11:15:16 |只看作者 |坛友微信交流群
那我们最应该学习哪个呢,现在??

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-5 18:49