对于大数据分析而言,目前关于相关度的研究依我之见,量表可能还是要用的,因为它毕竟是来自相关度前期研究的成果。例如:公平理论(equity theory)由乔治.霍曼斯(George Homans)于1961年首先提出,随后布兰(Reter Blan)于1964年进行增补并最终由斯达西.亚当斯(J.Stacy Adams)正式定型,公平理论也称社会比较理论、著名的期望理论(Expectancy-Value Theory)是迄今为止有关员工激励方面最广为接受的一种解释,最早是由托尔曼(E.Tolman)和勒温提出的,等等。问题在于这些理论本身是基于传统的以抽样分析为基本途径的经典的有限元数理统计方法,因此这种量表对于在大数据分析体系中具有很大的局限性(例如,大数据分析中由于“样本=总体”,所以白塞尔公式无需再使用、不再一味追求样本的精确度等等),主要还是量表过于简单或者考量的范围比较单调。这些理论如果是在“样本=总体”的情况下会有什么样的结果,或者说能给我们一些什么样的新认识和启迪?当然这不能怪研究者,因为经典的有限元研究方法本身具有局限性:一是由于从工具上看,计算和分析能力的条件所限,量表的大小有所限制,但随着大数据体系的应用,情况会有很大的改观。只是必须明确的是:大数据体系的应用有一个很重要的前提就是大数据分析的数学模型如何建立或者说完善,因为这关乎海量数据在分析和归纳以及验算过程中是如何作为数据分析的依据的。据了解,我国目前建立的几个超算中心任务并不饱和(据报道:武汉和郑州就属此类情况),其中一个重要原因就是超算计缺少一些大数据分析的数学模型。尽管我们目前这些用于大数据分析的数学模型的认知还比较少,研究的目标和途径也不够明朗,但毕竟对于经济学家来讲这个问题还是必须要考虑的。二是,我们如果以马克思的“劳动价值论”为题对现代纺织工业的生产组织结构对劳动价值的相关影响进行大数据分析,恐怕会给马克思的经济学理论,提供一个“另类”的参考(简要的案例见前文)。
现代经济学所研究的对象,既有传统意义上的经济关系,也有新的问题(或者说经济现象)。我们已经认识到经济问题都是多因素的问题,所有的经济要素之间有哪些相关因素在起作用,它们之间又是怎样的一种关系状态(或者说关联性),它们所具有的社会属性、政治属性和文化属性乃至文化和心理学属性等等究竟是怎样的?因此,我的预测是未来经济学人所要关注的更多的可能是这些方面的研究,因为这大概应当算是大数据分析的基本前提条件。而数学模型不过是对这些关系的定量表达而已。所以对于复杂大系统的经济学研究还需要跨学科攻关才行。所以,对于数据分析软件而言,就不仅仅是数学家和软件专家要完成的任务。尤其是我国经济学方面的相关量表的研究不多,“工欲善其事必先利其器”,所以它对经济学家或许有着更多的期许。在大数据时代,过去的那些被人们视为“陈谷烂康”的历史数据不再是无用之物。那些历史数据在大数据分析体系中是最宝贵的资源。数据的二次利用甚至三次利用是大数据体系的最大优势。如果你会翻历史的箱底,那么你就可能搭上了大数据的快车,“新的感悟,新的思想,新的判断”就会光顾你。
我的建议是:
1、中科院、工程院和国家统计局以及教育部尽快组织有关高校和科研院所针对我国经济发展的构想和基本状况,首先针对相对具体的研究目标课题建立自己的相关量表作为建立大数据分析数学模型的“方法准备”。
2、就课题选择而言,“转型升级的比较优势和创新禀赋内生动力”和“经济增长的制度安排”这两个课题似乎比较切合当前的需要。