尽管目前我们仍然处于大数据时代来临的前夜,但我们的日常生活已经离不开它了。互联网为大数据的流动和应用提供了信息“高速公路”。大数据系统则为物联网的实现提供了可靠信息的保证。大数据的科学价值和社会价值正是体现在这里。一方面,对大数据的掌握可以转化为经济价值的来源。另一方面,大数据已经开始撼动世界的各个方面,从商业科技到社会化大生产,从ZF、教育、经济管理、人文及社会保障等各个方面都将是大数据系统应用的领域。
数据不是数字化,数据(Data)在拉丁文里是“已知”的意思,也可以理解为“事实”。数据化的核心就是“量化一切”。大数据是基于云计算的数据分析体系,不再是传统的有限元抽样概率统计分析,是全数据分析。大数据分析的目标不再是抽样的精度分析,而是海量数据中的各数据之间相关度的分析。大数据的核心就是预测。它过去被认为是人工智能的一部分,(机器识别、学习),这是不准确的定义。大数据不是教机器像人一样思考,而是把数学算法运用到海量数据分析上来预测事情发生的可能。 大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们的理解和组建社会架构和步骤的方法:
一、在大数据时代,我们可以分析更多的数据,甚至可以处理某个特别现象相关的所有数据,而不再依赖随机抽样。也就是说我们的数学算法可以建立在近似无限元分析的基础上,由于海量的数据可以使我们进可能减少了经典数理统计中的“忽略或近似”,进而能够使我们看到样本无法揭示的细节信息。
二、由于研究的数据是如此之多,以至于我们不再热衷于追求精确度。在大数据事物条件下,适度忽略微观层面上的精确度会使我们在宏观层面上拥有更好的洞察力。实际上这种宏观层面上的洞察力已经对微观层面的信息状态有了前所未有的把握。
三、第三个转变由前两个转变而促成,即我们不再热衷于寻找因果关系。也就是说,人类长期以来关于寻找的因果关系在大数据时代变成注重寻找事物之间的相关关系,这会给我们提供非常新颖的有价值的观点,这将是人们可以更理性的处理问题。 大数据告诉我们的是:“是什么”而不是“为什么”。
例如:大数据系统可以把世界上所有航班十几年来的票价信息和购票时间以及全年各航空公司客流分布数据进行处理从而预测你在希望的时间段旅行时,一路上可以如何买到最低价格的机票。到2012年为止,在美国的Farecast系统中用了十万亿条价格记录帮助预测美国国内航班的票价。使用Farecast票价预测系统购买机票的旅客平均每张机票节省50美元。预测准确率超过75%。
再如:对冲基金通过剖析社交网络Twitter上的数据信息来预测股市的表现;亚马逊和Netter根据用户在网上的类似查询来进行产品的推介等等。此外,Twitter、Facebook以及Linkedln则通过用户的社交网络来分析用户的喜好。 实际上我国Alibaba的淘宝网现在也通过云计算也有类似商业数据分析并向网购者推荐其可能喜好的商品,根据我个人的小范围调查、判断,其相关度还是比较高的。当然上述例子仍然还属于大数据应用的初级阶段。不过在世界范围内,发展最快的大概还是物流配送业,可以预见到的是,大数据在物流配送业的推广应用,将会根本性地改变生产和流通运作模式。
和互联网一样,大数据系统不是经济理论,而是一种技术工具系统。互联网的到来是世界变成了“地球村”,它及大地促进了社会事务和生产经营的管理模式变革。大数据体系给经济学研究带来的影响是它可以提供一种崭新的、发散的思维和观念。这种崭新的、发散的思维和观念将会对经济学理论研究提供新的研究方向和方法。对于计量经济学,数据的来源,量化分析(数学模型)等一系列建立在传统数理统计分析基础上的研究领域都会发生重大变化,因为大数据不再依靠样本,也不再一味地关注样本的精确性,而是海量数据中数据与数据之间的相关性。当数据处理技术已经发生根本性变革的时候,在大数据时代进行抽样分析就像在跑车时代还在骑骆驼赶路一样。信息场发生的变化是我们需要的是所有的数据,即“样本=总体”。互联网、大数据和物联网的结合所产生的新事物和新问题给人们带来前所未有的认知空间和无尽遐想的可能,这极有可能还会对经济学学科的划分及其研究领域和探究的方法提供新的途径和提出新的要求。
任何一个数据都存在显现的和潜在的价值,只是由于我们过去的分析手段有限而将其大部分都忽略掉了。我们应该认识到:数据化意味着我们要从一切太阳底(天上、地面、地下、大气和温度、拥挤或稀疏、愉快或愤怒等等)下的事物中汲取信息,甚至包括那些我们以前认为和信息毫不相关的的事情”。比方说,在经济学的劳动价值论中。我们经常以“1小时织机米布”为例来讨论问题。如果是对于西方工业革命初期的手工作坊而言(类似于早年陕西窑洞里的老婆婆纺线织布)那是可以的。但是到了上世纪40年代以后工业革命引起的专业分工使生产的组织管理就完全不同了。以原纺织工业部《劳动定额管理》规定为例:192台织布机需要配备6个挡车工(32台/人)、2个帮接工·、3个换纱工、1个机修工、1个上轴工和0.5个落布工来共同完成生产任务,这还不包括加油工、空调工、库管工、修梭工等等辅助工种,也不包括车间温湿度变化和电压波动以及劳动者的身体变化状况以及产品品种变化以及劳动技能的变化等等非线性因素在内。因此,1个织布工“1小时织机米布”已经不能描述现代化生产过程的劳动价值产生过程。但是如果我们把所有工种的劳动耗费作为相关变量纳入大数据的分析中那么情况就不同了,大数据要探究的是数据及里面的数据之间的相关性而不是对某一数据精确度的关注。在一个恰当的数学模型中,云计算的超算功能可以发这种极其复杂的数据关联性分析和归纳出来。由于海量数据集中单个数据的权重已经变得非常小,所以“粗差”可以不考虑的。这种大数据的分析揭示的事务相关性是传统的有限元相关性分析所无法比拟的,这些原始数据大致相当于经过一个超大的量表(超过几十个甚至几百个数量级以上规模)的过滤、比较、筛选和演算,提供出的高可信度相关分析报告。
需要说明的是,大数据分析的应用并不排斥经典的数理统计分析 。因为大数据系统未来更多的是用于复杂大系统研究和应用领域。而基于有限元的传统的数理统计分析在“小数据”系统中仍然是基本的数学工具,两者不存在相互排斥的问题。但是在理性思维中,大数据系统将会提供一系列 前所未有的新观点,这是应该注意到的。概括起来讲,大数据分析提供的是一种相对“精确的相关性”。 从经济学意义上来讲,数据的价值是其所有可能用途的总合。而这些似乎无限的潜在用途就像是选择,这里不是指金融工具意义上的选择,而是实际意义上的选择。这些选择的总和就是数据的价值——潜在价值。
特别 强调的是,现行有关国家经济和社会的统计数据体系是不适用于大数据分析要求的。因为这些数据是经过若干次的加权平均汇集而来的,因此其中的人为因素过大,尤其是在政绩等“面霜”的修饰下已经失去了用于大数据分析的前提条件——原始数据。例如,对于中国大陆人均收入等的统计,大数据就是直接需要全部来自最底端的原始数据。云计算是“超算”,对于我国十几亿人口的收入统计分析就是将工资或收入、福利、年龄、职业特征、学历、专业或技能、所在地、家庭负担指数、日常开支、物价指数等等这些原始数据全部输入超算计计算分析,只要数据格式适合超算的快速输入,那么云计算有足够的能力在24——48小时内计算分析完成。并且可以根据不同的关键词之间存在的关联性和数据统计的加权平均的要求分别给出各种类别的精确分析和预测(可以远超出人均收入的要求,并可以选择不认同的分析层次给出分析报告)。我们所要做的就是保证所有数据都是没有经过“面霜修饰”的真实的原始数据。即使在这些原始数据中有少量疏漏错愕,也不会影响大数据分析的结果。
你想要真实的分析和预测结果吗?那你就坚决遵守“决不修改一切原始数据”这一原则好了。
最后,关于大数据时代面临的问题。尽管大数据时代的到来为复杂大系统的研究和控制提供了新的技术手段,但它可能带来的威险和动乱不安也是显而易见的。由于大数据的采集、存储和循环利用是不可或缺的基本流程,进行大数据管理和数据分析的人就可以轻松地看到大数据里的相关信息和具有的价值潜力,这就会激发一部分人对大数据的获取和以此牟利的欲望和野心。可以肯定的讲,“大数据还会带来更多的威胁,毕竟,大数据的核心思想就是用规模俱增来改变现状(舍恩伯格、库克耶《大数据时代》)”。其中最令人担心的是:一、个人隐私的安全,二是数据管理者的权力滥用。根据维基解密所暴露出的事实证明,除了黑客攻击带来的隐私泄密之外,另一个威胁就是“斯诺登们”揭露的那些可怕的事实。其三、匿名化的技术途径在大部分情况下并不可行。在小数据时代信息匿名化是可行的,但是随着数据量和数据种类的增加,大数据分析中进行的的数据内容交叉检验使数据的匿名化就像“马其顿防线”——一触即溃。因此,在大数据时代,无论是对个人还是国家,大数据带来的危险性都是显而易见的。一个不争的事实是,在大数据时代,不管告知与许可、模糊化还是匿名化,这三大隐私保护策略都失效了。如今很多用户都觉得自己的隐私已经受到了威胁,自己的宁静受到干扰,企业的商业秘密似乎无处可藏,每天你都会受到电话和短信的骚扰,你的手机会莫名其妙的在监视你。但这还不是终极,当大数据变得更为普遍时这种情况会变得更加严峻。