这一年写论文,我刚好用到了工业企业数据,但我有一事不明,江湖流传的工业企业数据到底是真假如何。为此,先有神农尝百草,今有我从坛子里砸下好几千大洋,我就要看看购买各种版本的工业企业数据库,到底是真是假!
说结论:
1998-2008年的数据较为真实(但是2008年的数据缺失关键变量)(PS:但是,工业企业数据缺失不少工业企业的信息);
2012-2013的数据大体可靠(按照时序变化,企业基本信息有所变化。在关键变量上,本人因为精力有限,采用几家上市公司的年报与工业企业数据进行对比,发现大体可靠。不过,工业企业数据中的财务信息偏低,可能是上市公司合并财报的缘故);
2009年的数据企业信息缺失很多(但是,也基本可靠吧);
2010年的数据基本是伪造的!(这个伪造的相当厉害,买了几个版本没有一个真实的。花了几天,我发现伪造方式包括用2007年的数据直接复制几遍就做2010的数据出售的,也有利用2009的列和不知道哪一年的列进行merge形成的)
Tabstat分析(工业企业数据与NBS数据对比):未完待续