8月14日,腾讯网在正院会馆举办了一场夏季思享会,而这次思享会的主题就是“大数据”。有意思的是,这次关于大数据的分享会请到了来自各个领域的学者和专家,是一场跨学科的思想碰撞。在现场的我听完了整场分享,有趣的观点不少,还有一些观点是目前国内关注大数据的人们不太提及的,非常思辨。在这里,我也跟大家分享一些来自思享会上的有趣观点。
海量数据的应用正在改变我们现有的生产方式,其不仅成为了一个重要的生产要素,还在一定程度上提高了生产效率。这时,海量数据应用带来的信息风暴不仅影响到我们的工作、生活,还可以逐渐影响我们的思维方式。有人说大数据本身是一场革命,这场革命就是把“量化”这个概念推动到我们生活中的方方面面。
1、关于大数据带来的机遇可以说是学界业界一致认同的,而北大新闻与传播学院的刘德寰教授却提出,大数据也可以是“大忽悠”,甚至存在大风险。
大数据就一定是全数据吗?
即使是像BAT这样的互联网巨头,他们所拥有的数据也只是一座”数据孤岛“。因此,很多大数据其实是断裂且封闭的。在这一座座孤岛被打破之前,大数据都无法称”全“。这种大而不全的数据导致我们无法真正获得想要的规律。
大数据也许会带来“假规律”和“伪相关”
虽然关于大数据的介绍和分析都告诉我们,大数据注重的是“相关关系”,而非“因果关系”,但是,如果只注重相关关系,数据量的增加将不可避免的带来伪相关的现象。当数据量达到几十万之巨之后,只会导向“万物相联系”这一结论。这时,所选取的变量都会呈现为统计显著,而这样的数据分析无疑就失败了。因此,即使大数据现在备受推崇,但传统的抽样调查和实验等社会学研究方法也不应该被抛弃,而应该结合使用。
《大数据时代》的译者周涛也回应了这个观点:从技术层面上来看,我们的确需要找到因果关系。一方面,有的关联如果没有因果在背后是很难被发现的;另一方面,因果能够帮助我们更好的解释和分析相关。
大数据离不开对“人性”的理解
大数据的挖掘过程也需要注入思想,这种思想就体现为“人性”。统计数据不能代替对人性的理解,真正进行跟人相关的大数据挖掘的时候一定要关注人性,这个时候的算法和建模才是有针对性、有意义的。怎样在数据中注入人性?观察、实验、调查等传统的研究方法都是很好的选择。比如,乔布斯就经常躲在苹果体验店外没人看得见的地方观察体验店里的人的行为,这是最早期的研究方法,在拥有大数据的今天还在使用是有一定原因的。一句话:诸如“体会、体验、直觉、灵机一动、内省”这些看似与大数据无关的东西有可能恰恰就是大数据的核心。
大数据+小应用的趋势
所谓大数据的小应用,就是把大数据应用到各个独立领域中去。大数据运算本身构造了一个拥有更多能力的“新算盘”,拥有这个新算盘不意味着拥有一切,而是有了一个可以在各个领域使用的科学的工具。怎样做好大数据的小应用?有两个方面:第一,大数据与小数据结合,这个小数据就是基于抽样调查的数据;第二,来自各个独立领域的专业知识非常重要,比如以心理学、法学、社会学、营销学等混合知识作为背景,再去跟数据结合,就能够探索出一个更科学的大数据分析和挖掘的方式。
2、关于大数据的产业应用,华大基因的董事长汪建表达了自己的看法:基因研究是一项很少被人了解的产业研究,但却是真正的大数据应用。
怎样有效的预测疾病、怎样降低传染病的发病率,这些都需要依靠于基因研究。人身体中的细胞数量有10的14次方个,而一个细胞的癌变就可能导致生命的终结。这一个癌细胞分解为RNA后就是10的9次方,变成蛋白质则是10的19次方,这么大的数据量足以构成大数据,而基因研究面对的就是如此量级的数据研究和应用。
以对肿瘤细胞的定性、定量研究为例。首先,要知道肿瘤细胞现在的基因是怎样的,而当出现一两个基因变化的时候,细胞又会变成什么样。其次,当众多肿瘤细胞的基因变化构成了相当量级的数据之后,我们就能通过数据来展现细胞癌变的动态变化过程,从而进一步预测疾病。这样的研究如果用在先天性疾病的防治上将更有意义,这样有出生缺陷的婴儿会越来越少。华大在推进的”百万人基因计划“,就是一个名符其实的大数据应用。因此,汪建从基因研究出发,表达了自己对大数据的理解:从大目标出发,践行大数据,实现大科学,从而将研究成功运用到各个领域中去,形成大产业。


雷达卡





京公网安备 11010802022788号







