楼主: kissky
791 0

大数据如何改变了我们与信息的关系 [推广有奖]

  • 4关注
  • 55粉丝

VIP

学科带头人

95%

还不是VIP/贵宾

-

威望
1
论坛币
41831 个
通用积分
4.4715
学术水平
74 点
热心指数
95 点
信用等级
53 点
经验
44085 点
帖子
1312
精华
1
在线时间
1614 小时
注册时间
2006-11-26
最后登录
2022-11-13
毕业学校
UIBE

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
                2013年 07月 22日 07:07
                大数据如何改变了我们与信息的关系
       
Irving Wladawsky-Berger


近的几篇文章透露出一些担忧,认为大数据(Big Data)在所谓的新兴技术炒作周期中可能已处于期望过高的巅峰期,很快就会开始落入幻灭的谷底。这在一种颠覆性技术的早期阶段并不罕见。关键的问题是这种技术会继续跌穿谷底、迅速被人遗忘呢还是最终会继续向前,沿着复苏的斜坡走向生命力长久的成熟期。你怎样才能辨别它会朝哪方面发展?

根据我的经验,一种颠覆性的技术只要能持续吸引严肃研究人员和分析师的眼球就能成功。这些研究人员和分析师经过一段时间会揭穿炒作行为,对技术的开发和营销予以规范,提出解决诸多技术障碍的办法,清理不切实际的承诺,重新勾勒这种技术实现目标的范围和时间表。互联网(The Internet)就是从导致dot-com泡沫的一片炒作中重获新生的,继续朝着高度成功的未来在发展。云计算目前正在经历一个类似的严肃评估与发展期,大数据也同样如此。

在《大数据的兴起:它是如何改变我们看待世界的方式的》这篇才发表在《外交》杂志(Foreign Affairs)上的文章里,《经济学家》杂志(Economist)的编辑肯尼思•库克耶(Kenneth Cukier)和牛津大学教授维克托•迈尔-舍恩伯格(Viktor Mayer-Schönberger) 很好地阐述了为什么“大数据标志着信息社会终于迎来了履行其名字中暗含的承诺的时刻”。这篇文章节选自他们2013年3月出版的著作《大数据:一场行将改变我们生活、工作和思考方式的革命》(Big Data: A Revolution That Will Transform How We Live, Work, and Think)。

库克耶和迈尔-舍恩伯格解释说,大数据已经迅速兴起,成为它所占据的舞台的中心,原因就是现在四处飘散的数字信息比以往任何时候都多。2000年的时候,全世界存储的信息中只有四分之一是数字信息,因此必须进行搜索和分析。自那以后,数字数据差不多每三年就会翻一番,因此到目前为止,所有存储的信息中只有2%不是数字信息。

没有数字化革命,大数据就不可能产生,而由于摩尔定律(Moore's Law)的存在,数字化革命使人有可能大大降低存储和分析海量信息的成本。网络就跟移动设备和智能传感器的爆炸性增长一样,也让数据的收集方便得多了。“但是就其核心而言,”作者写道,“大数据只是人类寻求认识并量化世界的过程中的最新举措而已。”数据化(Datafication)是他们使用的术语,用来描述当今捕获世界上以前从来没有量化过的很多方面信息并将其作为数据的能力。

我完全赞同他们的观点,认为大数据不仅应该被视为过去几十年里数字和互联网革命的一部分,而且应该视为过去几百年间科技革命的一部分。在今年5月举办的2013年麻省理工学院斯隆商学院首席信息长研讨会(the 2013 MIT Sloan CIO Symposium)上,麻省理工学院教授埃里克•布林约尔夫松(Erik Brynjolfsson)在他主持的“大数据的现实”小组讨论中表达了类似观点,他说纵观历史,新工具都会引发革命。

当新工具让我们有可能开展各种新的测量和观察活动时,科技革命就开始了。早在17世纪,伽利略(Galileo)对发明不久的望远镜进行了重大改进,使他能够作出大大改变我们整个宇宙观的发现。几个世纪以来,我们看到在物理、化学、生物和其它学科实现重大科技突破之前都会有新工具、新测量方式和新发现产生。

我们新的大数据工具有可能会引发一场基于信息的科技革命。就像望远镜、显微镜、光谱分析仪和DNA测序仪导致了新的科学学科产生一样,数据科学现在正迅速成为大数据的学术伴侣。数据科学最让人激动的地方之一是,鉴于我们刚刚获得了收集差不多任何主题(包括医疗保健、金融、管理和社会科学)方面有价值的数据的能力,大数据可以应用于差不多任何知识领域。不过,就像所有的科技革命一样,这需要时间。

按照库克耶和迈尔-舍恩伯格的说法,数据化需要在我们处理数据的方式上发生三个深刻变化。第一个变化他们称之为n=全部(n=all),也就是说,收集并利用大量数据,而不是像统计学家至今之前所做的那样只满足于小样本。“当收集数据的成本太高,处理数据既麻烦又耗时的时候,抽样的样本成为了救星。现代抽样技术是基于这样一个思想的:在一定的误差范围内,个人可以根据小团体的数据推断出整体人口的某种情况,只要抽取的样本是随机的。”

抽样需要预设数据将要被如何使用,因此你可以设计哪些是合适的样本。这样做在论及全体样本的时候是有用的,但当你深入到小一些的团体时,这样做就不是很有用,因为你可能没有足够的数据来有效地做到这一点。还有,如果你对自己想从数据中得到的内情改变了想法,你通常必须抽取新的样本。当你可以收集并存储所有数据而不是一个样本时,所有这些问题都不复存在了,也就是说,样本量n=全部的时候。

下一个变化是,要求人们接受零乱的而非纯净、精心整理过的数据。“在越来越多的情况下,稍失准确是可以接受的,因为使用质量参差的海量数据带来的好处超越了使用少量精准数据的成本……当周遭没有那么多数据的时候,研究人员必须保证他们费劲收集的数字是尽可能准确的。发掘海量数据意味着我们现在可以允许一点不准确的数据无意中流入(只要数据集不是完完全全不正确的),换来的是巨大体量的数据带给我们的视野。”

我发现最后一个重大变化,即从因果关系到相关性关系的变化,这特别让人感兴趣。正如作者所说:“大数据帮助回答是什么而不是为什么的问题,这往往就足够了。”或者说,至少在经验科学的早期阶段这就足够了。在这一阶段,我们寻求的是能够帮助我们预测未来事件和行为的方式,没有必要拥有可以解释事情为何发生的良好模式或理论。那些模式和理论今后会有的,不过有时它们根本不会出现。

比如,在麻省理工学院首席信息长研讨会上,麻省理工学院教授季米特里斯•波特西玛斯(Dimitris Bertsimas)参加了布林约尔夫松教授主持的“大数据的现实”小组讨论。他谈到了自己最近的研究:分析数十年的癌症治疗数据,希望能够以合理的成本提高癌症病人的寿命和生活质量。他和他的三个学生一道开发了模型,利用病人的个人资料数据和他们接受的化疗药物及剂量方面的数据预测生存和死亡的几率。他们的论文《用分析法设计癌症临床试验》(An Analytics Approach to Designing Clinical Trials for Cancer)表明,根据过去的数据预测未来临床试验的结果是有可能的,哪怕要预测的确切的药物组合以前从来没有在临床试验中测试过,哪怕这个特定药物组合为何有效的原因不为人所知。

“使用大数据有时意味着放弃追究为什么,以换取弄清事物是什么……这表示人们开始放弃了解世界如何运作背后的深层原因,转而仅仅去了解现象之间的联系并利用这种联系来完成任务,”库克耶和迈尔-舍恩伯格写道,“当然,弄清事物背后的原因是可取的。问题是原因经常很难查明,很多时候我们认为自己找到了原因,其实那不过是一种沾沾自喜的错觉。行为经济学已经证实,人类在原因不存在的地方也习惯于看到原因。因此我们需要特别警惕,防止我们的认知偏见迷惑我们;有时,我们只需要让数据说话。”

“在一个数据越来越多地决定判断的世界里,对于人、直觉和违背事实的行为来讲还会留有什么用途呢?”作者在结尾部分问道,“如果人人都诉诸于数据,利用大数据工具,能够成为区分焦点的就是不可预见的东西:本能的人为因素、冒险、事故、甚至错误。如果真是这样,那么会有一种特殊的需要人为来开辟一块地方:为直觉、常识、和意外发现的本事留出空间,确保它们不会被数据和千篇一律的答案挤出去……不管大数据的威力多么令人眼花缭乱,它诱人的光芒绝对不能让我们对其固有的缺点视而不见。我们必须在既感受到大数据的威力又了解它的局限性之后才去采用这种技术。”

王文科(Irving Wladawsky-Berger)是前IBM公司负责技术策略和创新的副总裁,现为花旗集团(Citigroup)的战略顾问,也是《CIO杂志》(CIO Journal)的定期撰稿人。

(本文版权归道琼斯公司所有,未经许可不得翻译或转载。)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:大数据 Revolution Bertsimas Symposium Analytics 分析师 生命力 文章 如何 信息

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-16 11:42