|
目前处理工企库的方法,主要差别在于面板数据结构的匹配,借鉴聂辉华等(2012)、杨汝岱(2015)、Brandt et al.(2012,2014)等的研究,分别可以用交叉匹配、序贯匹配等;对指标的处理仅涉及特殊字符清洗等过程的微小差异。类似思路也可以用于海关库、专利数据库、工商企业注册数据库、全国企业税收调查数据库、工企科技活动数据库、工企产品产量数据库、Orbis数据库等处理因企业名称或企业代码变动引起的各个年份间同一个企业难以识别到一起。之前我们也尝试过几次整理工企库,形成面板数据后,几次的结果显示98-13企业数在90-93万家左右,总样本量为424万多一些,与楼主pdf说明文件中提供的样本量十分接近,也正好作为交叉验证啦。
在用于实证时,根据常规筛选标准,一般剩余280-330万个样本,涉及70-80多万家企业。其中,2010年的数据由于质量较差,并未使用。2004年有两个来源,经过对照后决定采用276474样本的原始数据。
在考察企业退出时,复制李磊等(2019)世界经济的做法,发现结果可以比较接近,但在跨越2008-2010年时,行业层面的平均企业退出率突然变高,2010年退出率变高一方面由于2011年的规模以上标准发生变化,另一方面由于2010年数据质量较差或甚至为假数据。
在最近一次处理工企库时,借鉴杨汝岱(2015)的匹配步骤,发现效果确实较好,在匹配得到的90万家企业中按等间距抽取方法抽200家企业,检查其样本识别情况发现,仅有3家企业的识别出现了错误,重复抽取3次,后两次的结果也相差不大。错误主要发生在跨越2008-2010年的企业中,由于这几年有部分样本的企业名称或法人代码这两个关键识别变量时缺失的,因此,仅使用邮编、地址、行业和成立年份等次要信息匹配,容易造成误判,一个原因还是同地区同时期开业的企业较多,且由于产业集聚现象以及开发区的设立,容易发生同行业的企业扎堆开业。
此外,工企库与其他数据库的合并使用为常见做法。在该帖看到有将工企和专利数据一起匹配的,在两者匹配过程中,对于有多个申请人(申请人一般涉及企业、个人、院校、研究机构,以及极小部分ZF职能部门如农业部和工信部等)的专利,可以用于研究合作创新等话题,但数据处理时需要斟酌,我们主要参考寇宗来和He etal.建立的Chinese Patent Data Project项目(附公开数据,请见网址:https://sites.google.com/site/sipopdb/home)的思路。早期研究中,有合并工企和境外投资名录的做法,一个较为稳妥的做法是在精确匹配的基础上,使用模糊匹配结合人工校对方法,可以得到较好的结果。工企与海关,可以借鉴Yu(2015)等文献,一个更为稳妥的方法是从海关部门直接获取企业名称-海关企业代码-法人代码(12年之后为统一社会信用代码)的对应关系,其中有部分企业的海关企业10位代码是有过变化的,也有一小部分企业拥有两个及更多个数的海关代码。工企与Zephyr合并研究跨国并购方面的主题,由于Zephyr主要为英文企业名称,最为稳妥的方法是人工匹配,匹配结果可参考蒋冠宏等的研究;当然,也有汤森路透、彭博、万德等其他常见数据来源。最后,工企数据中的部分企业其实也是上市企业,可以用A股或新三板企业数据合并观察结果,有一个国泰安非上市企业数据库1998-2009(认识的一位学者有到2011),但并未检查过其中是否含有上市企业,有数据的小伙伴欢迎提供结果。
|