写论文需要数据,会从这里交流获取,从中学到很多。今天分享一点关于中国工业企业数据库的了解。中国工业企业数据我买过好几版本,但可惜全是假的。 不想大家像我一样,曾经在一堆假数据中浪费宝贵时间(超级鄙视那几个标榜TOPx高校数据源的,垃圾)。那么数据真假怎么分辨呢?
1.当然是权威的数据库原数据。中国微观经济数据查询系统——国家统计局的数据库(具体介绍见附件)。
2.查看2010年的数据,系统查询数据量是442539行。切记,行数不对,你就要怀疑。
3.还是2010年,系统数据关于企业财务指标只有三个可用,年从业人员、资产总计和营业收入,其他财务指标没有。
( 本人验证:很多假数据都是采用前后年的企业做随机抽样组合的2010数据,当你计算企业进入率的时候,奇高无比。有的人卖的数据,2010年企业进入率高达50%多。我就不点名了,只要卖的原数据是Access格式的,就要注意啦。)
4.关于是否有法人代码和企业名称的问题:凡是带有“试用”两个字的数据库是没法导出法人代码和企业名称的,只有顶级的高校和智囊机构的工业企业数据库才是完整的,也就是有法人代码和企业名称的!
5.有人说,他的数据处理匹配过了,放心使用。你敢信?!那你就等着暴雷吧。垃圾原数据是出不了真数据的。号称已经整理成超级面板了,其中尤其以STATA格式文件为多,基本都是在前述ACCESS格式文件上处理的。
6.2007年之后的数据能不能发表论文?有人说,数据使用都是2007年之前的发表论文,之后的数据不能用。国家统计局的数据库既然给了你到2013就没有理由不能用。还有很多范文,CNKI找一下,很多c刊都有使用到2013企业数据的(随便附上几篇范文,其中陈诗一的论文刚刚获得刘诗白经济学奖)。
7.最近出现所谓的2014、2015的数据,还是要谨慎。至少目前官方的查询系统并没有这两年的数据。
8.最近很多朋友问我有没有匹配好的数据。请下载附件1,关于最新的数据的说明。有一段话是这样的,仔细阅读“中国微观经济数据查询系统改变了传统的以光盘为载体的微观数据线下提供方式,并对数据进行了专业的清洗与处理,在很大程度上解决了数据异常、填报不准确,难于匹配等问题。同时增添指标的名词解释,大大降低了数据的使用门槛,提升了数据的使用效率。”
这段话的意思就是,以前很多人说的数据混乱的问题,已经被国家统计局清洗过了。你要做的就是选择样本和指标就可以了。
讲这么多,希望对大家专心做学术有帮助!欢迎数据交流、讨论:q 22421514
鉴别数据库的真假请看下图中的数据量!!!
=============分割线==========
声明:跟帖中有卖数据的泼脏水!甚至加我QQ找麻烦!但是我要坚持基本的求真精神,说真话,而不是像某个加我QQ数据贩子说的,“有财大家一起发”!太恶心了!zhuangzhailuo6 就是一个数据贩子无疑!
小鬼123456789是贩卖数据的,我在他帖子中讨论了数据的质量问题,被盯上了!
上市公司制造业TFP计算和城市匹配(2008-2018)https://bbs.pinggu.org/thread-7569605-1-1.html