蒋冠宏等众多著名国际商务学者均使用该数据集产出重要研究成果!
具体的处理方法为:
参考Brandt等(2012)对数据库进行了逐年合并,并对错误数据进行了清洗。将《名录》与《工业企业数据库》按照企业进行匹配合并,以蒋冠宏等(2015)为代表的众多学者在研究相关问题时均对两个数据库进行了合并,但由于《工业企业数据库》错误较多且企业存在改名的现象,导致两个数据库匹配成功率较低。为解决这一问题,采用了独创的同地区模糊匹配法,具体步骤如下:
首先,根据《工业企业数据库》中错误率较低的“地区编码”和“邮政编码”确定该企业所在(副)省级单位(包括省、直辖市、自治区和计划单列市),未能确定企业所在地点的样本不足1%(398万余个原始样本中不足2万),剔除这部分样本。然后,采用文本处理工具将两个数据库中的企业名进行分词,提取出核心部分,将地点和“有限责任公司”等通用后缀去除,如“南京盛东化工有限公司”,提出的核心部分为“盛东化工”。使用模糊匹配程序包将两个数据库进行匹配,模糊匹配提高了匹配的成功率,如“中国石油”和“中石油”是一家公司,如果使用精确匹配,则不能匹配成功,但不能过于模糊,否则“中石油”和“中石化”将被识别成同一家公司,根据该程序包的使用经验,将模糊匹配阈值设为80%。最后,按年按地区进行匹配,这样可以大大提高匹配的成功率,在同一省份的同一年份,每个企业的匹配空间大幅减小,重名的可能性降低,此外,去除地名开头和通用后缀避免了如“北京”和“北京市”这样同一意思但字符不同所造成的差别,使得成功率进一步提高。最终,经过以上处理,在2001—2013年的样本区间上,将两个数据库匹配合并,共获得3989940个样本,其中,共有6889家工业企业进行对外直接投资,共投资8429次,匹配成功率大幅高于同类文献。
由于《工业企业数据库》中统计错误和缺失值较多,参考Feenstra等(2014)、聂辉华等(2012)对原始数据进行清洗和精简,包括(1)剔除了雇员数少于8人且多于100万人的样本;(2)剔除了同一年内重复或错误的记录以提高样本信息的准确度;(3)剔除了一些明显错误,如工业总产值、工业增加值、固定资产数值非正数的样本;(4)剔除了存续年份大于100年或小于0年的样本等;(5)本文将按年列示的数据库根据企业名称、法人代表名称、地理位置等信息匹配成非平衡面板,非平衡面板中,由于统计披露和逐年匹配误差,部分企业出现时间较短或者不连续,本文仅选择数据连续存在3年以上的企业,剔除了不足3年的样本。最终,精简之后的样本量总数为742788,共2492家工业企业进行对外直接投资,投资3140笔。总结来看,在工业企业数据库的基础上匹配了两个新变量,第一个是该企业该年是否进行了对外直接投资;第二,同一家企业每一年可能会有多笔对外直接投资,本文统计了匹配到的样本数,即该企业该年对外直接投资的笔数。
处理过程和代码展示: 首先是原始数据,包括2000-2013年工业企业数据库数据和境外投资企业(机构)名录数据。
Python代码包括数据预处理,字段删减统一改名,公司名处理,模糊匹配等。
stata代码包括分年合并,非平衡面板处理,删除离群数据等。
结果展示及字段说明:
处理后保留的字段和相关说明详见Excel表。
2.将各年数据分别与商务部境外投资企业名录进行匹配,采取了必要的模糊匹配,增加配对成功的数量,其中OFDIs列表示该企业当年对外投资的次数,一共匹配成功8900多笔投资,优于目前可以见到的一些匹配工作。
3.penal_id字段唯一标识面板中的不同企业,总面板数据是非平衡的,企业样本从一年到横跨十四年不等。
4.字符串变量基本选自工业企业数据库中的字符串,加入了省份变量和分词后的法人单位变量帮助匹配。
5.数据变量除了OFDIs之外,其他均来自于工业企业数据库,在一定程度上选取了2000年-2013年各年数据库字段的交集,即14年出现了12次以上的变量(这样做是因为即使缺失也可以通过插值补全),如果某个变量仅出现过个位次,则无法补全缺失值,无法使用该指标的面板数据。
6.通过以上方法选取了40多个企业指标,均为财务指标,包括资产类、负债类、权益类和损益类等,具体即缺失情况见“字段及缺失情况.xlsx”为进行微观层面的研究提供了坚实的基础。
7.但也不得不删去了一些变量,如仅在某几年出现的现金流量指标,以及行政区码、轻重工业、企业规模、从业人数、新产品产值、工业增加值、长期投资、流动资产净额、本年折旧、固定资产净值、无形资产、营业收入、营业成本、销售利润、投资收益、营业外收入、营业外支出、利税总额、应付福利总额、税金及附加、中间投入合计等指标。
最终结果:
总数据300多万条,目前仅支持stata格式,敬请谅解!清洗后数据质量非常高且目前很新,谢绝议价!