楼主: tanxinwei
2395 0

超越Hadoop的大数据分析之第一章介绍:为什么超越Hadoop Map-Reduce [推广有奖]

  • 3关注
  • 7粉丝

博士生

44%

还不是VIP/贵宾

-

威望
0
论坛币
-16130 个
通用积分
1.0000
学术水平
18 点
热心指数
19 点
信用等级
12 点
经验
5631 点
帖子
132
精华
0
在线时间
246 小时
注册时间
2012-11-28
最后登录
2018-12-7

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

超越Hadoop的大数据分析之第一章介绍:为什么超越Hadoop Map-Reduce

你可能是一个视频服务提供商,而你想基于网络环境动态的选择合适的内容分发网络来优化终端用户的体验。或者你是一个ZF监管机构,需要为互联网页进行****或非****的分类以便过滤****页面,同时还要做到高吞吐量以及实时性。或者你是一个通讯/移动服务提供商——要么你在这样的公司工作——而你担心客户流失(客户流失意味着,老用户离开而选择竞争对手,或者新用户加入竞争对手)。你一定非常想知道前一天有哪些客户在tweeter上抱怨你的服务。或者你是个零食店主,而你非常想对你的客户做购买预测,这样你就可以为你商品做更多有针对性的促销活动,并期望销售额由此带来的增长。或者你是一家医疗保险公司,当务之急是计算某位客户明年住院的概率,以便适当的修改的保费。或者你是一家金融产品公司的CTO,而公司希望拥有实时交易/预测算法,帮助确认损益表底线。或者你为一家电子制造公司工作,而你想在试运行期间预测故障、查明故障根源,以便在后来的实际运行中有效。这要归功于大数据分析创造的新世界。

分析已经存在很久了——北卡罗莱纳州立大学在1960年代晚期有一个用于农业研究的项目叫做“统计分析系统(SAS)”,后来该项目独立出来成立了SAS公司。术语analysis与analytics(译者注:本人不知道如何翻译这两个词)之间的惟一区别在于analytics通过分析数据得到可行性的见解。术语商业智能(BI)在商业环境的数据分析中也经常提到,可能最早见于Peter Luhn的一篇论文(Luhn 1958)。许多BI应用运行于数据仓库之上,直到最近也是如此。相比之下,从术语“分析”到“大数据”这个术语的深化是极其晚近的事了。

术语大数据似乎首先被John R. Mashey使用,后来硅谷图形公司(SGI)在一份在USENIX(UNIX用户协会)会议邀请报告的标题叫做“大数据与下一代基础架构压力”,它的副本可从http://static.usenix.org/event/usenix99/invited_talks/mashey.pdf下载。该术语同样出现在一份计算协会的信件中(Bryson等 1999年)。来自META集团(如今的Gartner)的一份报告首次确认3V(大量、多样、快速,译者注:原谅是Volume variety velocity)为大数据的特征。谷歌关于MapReduce的论文(MR; Dean Ghemawat 2004)触发了在大数据领域的大量研究。虽然MR范式在函数式编程中为人所熟知,但是该论文也提供了在集群环境中该范式的可扩展性实现。该论文导致了Hadoop的出现——MR范式的开源实现,一个可用性范式的转变——使得最终用户能够在集群环境中处理大数据集。Hadoop,包括MR实现与Hadoop分布式文件系统(HDFS),如今已经成为数据处理的事实标准。大量的工业厂商正在改变游戏规则,例如迪斯尼、西尔百货、沃尔玛、AT&T已经有它们自己的Hadoop集群设施


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Map-Reduce Hadoop reduce 大数据分析 数据分析 大数据 hadoop Map-Reduce 入门

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-27 09:57