楼主: Lay.Terry
3719 10

[其他] 吐槽大数据 [推广有奖]

已卖:306份资源

学术权威

21%

还不是VIP/贵宾

-

威望
4
论坛币
214342 个
通用积分
1019.4772
学术水平
427 点
热心指数
197 点
信用等级
399 点
经验
69736 点
帖子
771
精华
50
在线时间
2606 小时
注册时间
2011-8-29
最后登录
2024-2-19

楼主
Lay.Terry 在职认证  发表于 2014-3-7 15:52:39 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
大数据这个概念现在可说是红得发紫,有谣传说连中央的大领导们都上了大数据的贼船,寻思着要从维克托•迈尔•舍恩伯格的《大数据时代》中学习如何治国理政。   
    笔 者却对大数据充满了吐槽的欲望,部分是因为笔者曾经遇到过一位大数据的狂热鼓吹者,名言是“是不是科学就看有没有大数据,有大数据就是科学,没有大数据就 不是科学,”以及“我觉得宇宙应该是什么什么样的,这样比较符合我的审美。”笔者觉得此人实在是个妄人,手里有把锤子就把一切都当成钉子……   
笔者也读过维克托•迈尔•舍恩伯格的《大数据时代》,也并不认为大数据全都是胡扯——大数据肯定是有用的,不过有些鼓吹者恐怕吹得有点过了。而且,大数据还是个出现没两年的新领域,今天认为确凿无疑的东西明天也许就会被发现是错误的。  
    笔者也读过一些吐槽大数据的文章,比如纽约时报专栏作者大卫•布鲁克斯(David Brooks)的《大数据不能做什么?》大卫•布鲁克斯说,大数据不懂社交。数据分析擅长于分析社会关系的数量而非质量。社交网络的数据科学家可以分辨出 6个你的同事,你一天中有76%的时间会见他们。而却很难发现你一个一年只见两次面的童年伙伴。更别说发现像但丁对贝特丽丝的爱情那样,只见过两次面就深 爱上对方的情况了。这说明并非所有的信息都能被大数据所利用。大数据会忽略很多信息,有时还是十分重要的信息。   
    与之类似的是,大数据不懂得背景。我们说一句话究竟是认真的还是开玩笑,是为了表达愤怒还是善意,这些都要放在复杂的背景中来理解,数据分析很难搞清楚这些。   
    第三,大数据会带来大量毫无意义的伪相关。有人说,现有的数据,多的可以让你想要分析出什么结果,就能分析出什么结果。想像一下,如果领导们发现冰激凌的销量和群体性事件的数量呈正相关会怎么样?随着数据的增长,这种伪相关将呈指数级增长。   
    第 四,大数据不能处理真正的大问题。大卫•布鲁克斯说,如果你想看一下哪些邮件对推广活动最有效,你可以进行随机抽取对比组样本。进行比较。可是,如果我们 想模拟一个衰退期的经济体。我们没办法去找这样的一个对比组。我们经常会看到人们争论什么是最好的经济刺激政策。而我从来没有看到争论的双方能够用数据分 析说服另外一方的。而治理国家所面对的恰恰是这些大问题。另一方面,大数据也不擅长预测小概率事件,像预测什么时候会发生地震,什么时候会发生恐怖袭击, 什么时候会发生革命这种事,数据分析是无能为力的。   
    第五,数据偏爱潮流,忽视创新——这对领导们来说倒是无所谓的,因为领导们本来就不想要创新。创新对官僚体制来说是件很糟糕的事,有创造力的官僚体制往往会把自己搞垮掉。   
    最后,原始数据其实并不原始,原始数据往往会被扭曲。对领导们来说,他们所面对的一大问题就是:他们不可能一边封网一边还能收集到真实客观的原始数据。封网和收集真实数据是彼此矛盾的。封网本来是想欺骗别人,最后却可能只是骗了自己。  
    上面是大卫•布鲁克斯的吐槽和笔者的评论。笔者也有自己的话要说,主要是关于大数据中不管因果只看相关的数据分析方法。   
    《大数据时 代》说,我们知道什么药能治什么病就足够了,不必知道为什么。从这句话中,我们可以看出该书的作者对因果关系的理解有误:统计学上说知道因果关系是指我们 高度确定(>95%)某一件事导致了另一件事的发生,而不是说我们知道这种关系背后的原理。换句话说,我们说某药能治某病,这本身就是一种因果关 系,无论我们是否知道治病的原理。如果二者之间只有相关关系,我们恐怕就只能说些类似“某种药物的摄入量与某种疾病的发病率之间存在负相关”的话。   
    因 果关系还是相关关系,对我们来说有什么区别吗?区别就在于如果我们只知道两组数据(例如冰激凌销量和群体性事件数量)之间存在相关,那么我们或许可以利用 这种相关(例如一旦发生群体性事件就赶紧推车上街卖冰激凌),但是如果想要改变现状,恐怕还是需要知道因果关系才行(禁止冰激凌就能够把群体性事件消灭在 萌芽状态吗?谁知道?!只知道相关关系并不能保证这一点)。企业一般只需做到前者就能赚到钱,可是想要管理社会的话,只知道相关大概是不够的。   
    说 到底,大数据是一座矿山,我们能够从中挖到些什么东西是不确定的。对企业来说,只要挖到了东西,赚到了钱,它们也就满意了;如果什么都挖不到,它们也只能 怪自己运气不好。但是如果ZF想要大数据给它提供“不发生任何意外事件”的安全保证,那么这种保证恐怕是大数据无法提供的。另一方面,大数据也解决不了官 僚体制内部沟通不畅、派系斗争和动机缺乏等等问题。   
    最根本的问题恐怕还在于ZF的脆弱性:ZF想要稳定,因为变化几乎肯定会对它有害;而市场拥抱变化,因为它总是能够从变化中获益。这两种不同的心态或许决定了数据所能给它们带来的意义。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:大数据 数据分析方法 Brooks 群体性事件 大数据时代 维克托 欲望 如何 宇宙

沙发
夏目贵志 发表于 2014-3-12 20:37:35
支持一下。其实没怎么见过学术大牛做这些的。这个本身其实就是商业概念啦。

藤椅
URSIMON 发表于 2014-3-14 10:26:46
夏目贵志 发表于 2014-3-12 20:37
支持一下。其实没怎么见过学术大牛做这些的。这个本身其实就是商业概念啦。
在美国的学术界这种流行已经开始了

板凳
夏目贵志 发表于 2014-3-14 11:49:43
URSIMON 发表于 2014-3-14 10:26
在美国的学术界这种流行已经开始了
能举个例子吗?

报纸
URSIMON 发表于 2014-3-14 22:27:14
夏目贵志 发表于 2014-3-14 11:49
能举个例子吗?
我认识的一些在bs任教特别是做电商 quant方向的,或者从事生物等一些学科研究教学工作的朋友基本上都是同大数据打交道,一个research的数据量甚至经常都是几个G,这种流行不是说很多人专门从事bigdata相关技术的研究,而是big data及相关技术被大量应用

地板
URSIMON 发表于 2014-3-14 22:32:49
针对楼主的说法不敢苟同,现在在美国,生物医药行业是大数据应用最广泛的领域之一,也许有一天当你年老的时候生病住院,你怎么敢保证将你从死神手里拉回来的技术不是来自于你曾经吐槽过的大数据的研究结果呢

7
夏目贵志 发表于 2014-3-15 01:15:32
URSIMON 发表于 2014-3-14 22:27
我认识的一些在bs任教特别是做电商 quant方向的,或者从事生物等一些学科研究教学工作的朋友基本上都是同大 ...
我平时工作中也经常和成GB的数据打交道,但是我并不认为我自己是“做大数据”的,因为我用的分析方法都是传统的分析方法而不是特别为大数据设计的分析方法。我之前的帖子的意思是说,据我的有限的了解,学术界(和经济相关的专业)并没有为大数据开发新的分析方法的趋势,简单说就是我没见过主流经济学期刊登载过专门用于大数据分析的计量或者统计方法。

8
URSIMON 发表于 2014-3-15 01:44:04
夏目贵志 发表于 2014-3-15 01:15
我平时工作中也经常和成GB的数据打交道,但是我并不认为我自己是“做大数据”的,因为我用的分析方法都是 ...
"我平时工作中也经常和成GB的数据打交道,但是我并不认为我自己是“做大数据”的",我觉得首先你要先搞清楚什么是"大数据",我的叔叔是mit的生物系的faculty,我的前室友是u Penn的engineering phd,我同他们闲聊时也谈过这个问题,他们告诉我他们的研究中都在强调海量数据的应用,我不知道你的这两句"支持一下。其实没怎么见过学术大牛做这些的。这个本身其实就是商业概念啦""简单说就是我没见过主流经济学期刊登载过专门用于大数据分析的计量或者统计方法"是不是代表着大数据在学术界就没有应用,经济学是不是可以代表所有学术界?你没有读过是不是意味着没有?

9
夏目贵志 发表于 2014-3-15 02:54:15
URSIMON 发表于 2014-3-15 01:44
"我平时工作中也经常和成GB的数据打交道,但是我并不认为我自己是“做大数据”的",我觉得首先你要先搞清楚 ...
晕死。。。这个是经济学论坛好不好。没有说明field的当然默认都是经济。。。生物什么的请移步别的论坛。而且我说的不就是我没读过么。我没说没有啊。。。我不是还想请你举几个例子来的吗,就是因为我觉得可能有我没读过的啊。。。拜托好好看清楚别人的话再吐槽。你是困了吧亲?

10
骄糖拿铁 发表于 2014-3-20 10:49:21
商业从来就没有离开过数据,发展永远都是跟着数据所展现的趋势所进步的,现在借着计算机、互联网的发展,信息量不断膨胀,从大量的数据中找到有效的数据,才是真正应该做的事情

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-5 22:10