1842 3

[Hadoop] 大数据是什么意思?大家一起来聊一聊 [推广有奖]

  • 0关注
  • 66粉丝

教授

55%

还不是VIP/贵宾

-

威望
1
论坛币
13016 个
通用积分
64.2192
学术水平
26 点
热心指数
25 点
信用等级
15 点
经验
8663 点
帖子
617
精华
0
在线时间
170 小时
注册时间
2016-12-6
最后登录
2017-4-8

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
大数据是什么意思?大家一起来聊一聊

摘要

大数据的概念可能不同的人会有不同的理解,我自己从08年开始从事大数据相关的工作,那个时候我们是觉得自己搞的是云计算和数据仓库,而到了2011、2012年的时候,国内大数据的概念才兴起来,之后就是炒了三年的概念。


因为从事这一方向,这几年不断会有人问我什么是大数据?我一直都回答不好。在最近的几个月,我对这一概念思考的更多一些,结合看过的一些资料(如《大数据时代》、《数学之美》第二版、《硅谷之谜》、吴军的演讲材料等)和实际的经历,算是有了一些认识。与其说认识,还不如说是总结,换个角度看待这个问题,分为大数据概念和大数据思维。


我把大数据的概念总结为四个字:大、全、细、时。



大数据之大


我们先来看一组数据:


  • 百度每天采集的用户行为数据有1.5PB以上

  • 全国各地级市今天的苹果价格数据有2MB

  • 1998年Google抓取的互联网页面共有47GB(压缩后)

  • 一台风力发电机每天产生的振动数据有50GB



百度每天的行为数据1.5个PB够大吧?我们毫无怀疑这是大数据。但全国各个地级市今天的苹果价格只有2MB大小,是典型的小数据吧?但如果我们基于这个数据,做一个苹果分销的智能调度系统,这就是个牛逼的大数据应用了。Google在刚成立的时候,佩奇和布林下载了整个互联网的页面,在压缩后也就47GB大小,现在一个U盘都能装的下,但Google搜索显然是个大数据的应用。如果再来看一台风机每天的振动数据可能都有50GB,但这个数据只是针对这一台风机的,并不能从覆盖面上,起到多大的作用,这我认为不能叫大数据。


这里就是在强调大,是Big不是Large,我们强调的是抽象意义的大。



大数据之全


我们再来看关于美国大选的三次事件:


  • 1936年《文学文摘》收集了240万份调查问卷,预测错误

  • 新闻学教授盖洛普只收集了5万人的意见,预测罗斯福连任正确

  • 2012年Nate Silver通过互联网采集社交、新闻数据,预测大选结果



《文学文摘》所收集的问卷有240万,绝对是够大的,但为什么预测错误了呢?当时《文学文摘》是通过电话调查的,能够装电话的就是一类富人,这类人本身就有不同的政治倾向,调查的结果本身就是偏的。而盖洛普只收集了5万人的意见,但是他采用按照社会人群按照比例抽样,然后汇集总体结果,反而预测正确了。因为这次预测,盖洛普一炮而红,现在成了一个著名的调研公司。当然,后来盖洛普也有预测失败的时候。到了2012年,一个名不见经传的人物Nate Silver通过采集网上的社交、新闻数据,这是他预测的情况和真实的情况:


1.jpg

(图1 Nate Silver做的竞选预测)


两者是惊人的接近的。


从这点我是想强调要全量而不是抽样,大数据时代有了更好的数据采集手段,让获取全量数据成为可能。



大数据之细


在2013年9月,百度知道发布了一份《中国十大吃货省市排行榜》,在关于“××能吃吗?”的问题中,宁夏网友最关心“螃蟹能吃吗?”内蒙古、新疆和西藏的人最关心“蘑菇能吃吗?”浙江、广东、福建、四川等地网友问得最多的是“××虫能吃吗?”而江苏以及上海、北京等地则最爱问“××的皮能不能吃?”。下图是全国各地关心的食物:



2.png

(图2 各省市最喜欢吃的东西)


用户在问什么能吃吗的时候,并不会说“我来自宁夏,我想知道螃蟹能吃吗”,而是会问“螃蟹能吃吗”,但是服务器采集到了用户的IP地址,而通过IP地址就能知道他所在的省份。这就是数据多维度的威力,如果没有IP这个维度,这个分析就不好办了。而现有的采集手段,能够让我们从多个维度获取数据,再进行后续分析的时候,就能对这些维度加以利用,就是“细”。



大数据之时


我们现在对CPI已经不再陌生,是居民消费价格指数(consumer price index)的简称。我们努力工作,起码要跑过CPI。



3.png

(图3 CPI)


那你有了解过CPI是怎么统计的吗?这里包括两个阶段,一个是收集商品价格数据,一个是分析并发布数据。我从百度百科上了解到,中国CPI采样500多个市县,采价调查点6.3万个,近4000名采价员,次月中旬发布报告。我还曾找国家统计局的朋友确认了这个事情。


而在美国有一家创业公司叫Premise Data。它通过众包方式,25000个采价员(学生、收银员、司机等),使用手机APP采集数据,每条6~40美分,比美国政府数据提前4~6周发布。


这就是“时”,强调实时收集数据和实时分析数据。当然,在CPI的例子中,我们可以让价格上报更智能一些,不需要人工的方式。


从上面的大、全、细、时四个字,我们就可以对大数据的概念有个较为清晰的认识。这四点主要强调的数据的获取和规模上,和以往传统数据时代的差异。有了这个基础,我们还要看怎么对大数据加以利用。这里就要看看大数据思维。我们也来看两个例子。



大数据思维


4.png

(图4 输入法)


85前应该都用过智能ABC,一种古老的输入法,打起来特别慢。到了2002年左右,出了一个叫紫光的输入法,当时我就震惊了。真的输入很快,仿佛你的按键还没按下去,字就已经跳出来了。但渐渐的发现紫光拼音有个问题是许多新的词汇它没有。后来有了搜狗输入法,直接基于搜索的用户搜索记录,去抽取新的词库,准实时的更新用户本地的词库数据,因为有了大量的输入数据,就能直接识别出最可能的组合。


5.png

(图5 地图)


我们以前都用纸质的地图,每年还要买新的,旧的地址可能会过时,看着地图你绝对不知道哪里堵车。但有了百度地图就不一样了,我们上面搜索的地址都是及时更新的,虽然偶尔也会有被带到沟里的情况,但毕竟是少数。可以实时的看到路面堵车情况,并且可以规划防拥堵路线。


我们想想这种做事方式和以前有何不同?


我们发现不是在拍脑袋做决定了,不是通过因果关系或者规则来决定该怎么办了,而是直接通过数据要答案。我们获取的数据越全面,越能消除更多的不确定性。也就是用数据说话,数据驱动。




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:大数据是什么意思 是什么意思 大家一起来 大数据 Google搜索 大数据是什么 大数据分析难吗 数据分析 数据分析工作内容 数据分析案例

沙发
西风起 发表于 2016-12-15 15:58:29 |只看作者 |坛友微信交流群
过去分析数据因为分析工具能力和计算的限制所以对数据一般采用的都是抽样数据来分析。对样本数据的分析结果代表了原始数据的问题。但这样的代理的是样本选择是否合理科学。抽样方法是否科学。数据细节丢失问题。现在所谓的大数据是基于技术能力的突破后的全样本分析就是没有抽样和样本选择问题。面向全部数据的分析全样本分析。

使用道具

藤椅
电商师 发表于 2016-12-17 18:48:32 |只看作者 |坛友微信交流群
楼上的朋友讲得不错:现在所谓的大数据是基于技术能力的突破后的全样本分析就是没有抽样和样本选择问题。面向全部数据的分析全样本分析。

使用道具

板凳
数据分析闯天下 在职认证  发表于 2016-12-17 19:12:21 |只看作者 |坛友微信交流群
西风起 发表于 2016-12-15 15:58
过去分析数据因为分析工具能力和计算的限制所以对数据一般采用的都是抽样数据来分析。对样本数据的分析结果 ...
确实,大数据就是全样本分析

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-7 18:27