中国境外投资企业（机构）名录与中国工业企业数据库匹配

0关注
8粉丝

已卖：967份资源

博士生

34%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 2134 个
通用积分: 10.6844
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 1113 点
帖子: 45
精华: 0
在线时间: 484 小时
注册时间: 2017-5-9
最后登录: 2026-4-6

楼主

ajzyyp

发表于 2022-4-24 16:16:13 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

该数据集是研究微观企业及其对外直接投资的重要数据集！

蒋冠宏等众多著名国际商务学者均使用该数据集产出重要研究成果！

具体的处理方法为：
      参考Brandt等(2012)对数据库进行了逐年合并，并对错误数据进行了清洗。将《名录》与《工业企业数据库》按照企业进行匹配合并，以蒋冠宏等（2015）为代表的众多学者在研究相关问题时均对两个数据库进行了合并，但由于《工业企业数据库》错误较多且企业存在改名的现象，导致两个数据库匹配成功率较低。为解决这一问题，采用了独创的同地区模糊匹配法，具体步骤如下：
      首先，根据《工业企业数据库》中错误率较低的“地区编码”和“邮政编码”确定该企业所在（副）省级单位（包括省、直辖市、自治区和计划单列市），未能确定企业所在地点的样本不足1%（398万余个原始样本中不足2万），剔除这部分样本。然后，采用文本处理工具将两个数据库中的企业名进行分词，提取出核心部分，将地点和“有限责任公司”等通用后缀去除，如“南京盛东化工有限公司”，提出的核心部分为“盛东化工”。使用模糊匹配程序包将两个数据库进行匹配，模糊匹配提高了匹配的成功率，如“中国石油”和“中石油”是一家公司，如果使用精确匹配，则不能匹配成功，但不能过于模糊，否则“中石油”和“中石化”将被识别成同一家公司，根据该程序包的使用经验，将模糊匹配阈值设为80%。最后，按年按地区进行匹配，这样可以大大提高匹配的成功率，在同一省份的同一年份，每个企业的匹配空间大幅减小，重名的可能性降低，此外，去除地名开头和通用后缀避免了如“北京”和“北京市”这样同一意思但字符不同所造成的差别，使得成功率进一步提高。最终，经过以上处理，在2001—2013年的样本区间上，将两个数据库匹配合并，共获得3989940个样本，其中，共有6889家工业企业进行对外直接投资，共投资8429次，匹配成功率大幅高于同类文献。
   由于《工业企业数据库》中统计错误和缺失值较多，参考Feenstra等（2014）、聂辉华等（2012）对原始数据进行清洗和精简，包括（1）剔除了雇员数少于8人且多于100万人的样本；（2）剔除了同一年内重复或错误的记录以提高样本信息的准确度；（3）剔除了一些明显错误，如工业总产值、工业增加值、固定资产数值非正数的样本；（4）剔除了存续年份大于100年或小于0年的样本等；（5）本文将按年列示的数据库根据企业名称、法人代表名称、地理位置等信息匹配成非平衡面板，非平衡面板中，由于统计披露和逐年匹配误差，部分企业出现时间较短或者不连续，本文仅选择数据连续存在3年以上的企业，剔除了不足3年的样本。最终，精简之后的样本量总数为742788，共2492家工业企业进行对外直接投资，投资3140笔。总结来看，在工业企业数据库的基础上匹配了两个新变量，第一个是该企业该年是否进行了对外直接投资；第二，同一家企业每一年可能会有多笔对外直接投资，本文统计了匹配到的样本数，即该企业该年对外直接投资的笔数。

处理过程和代码展示： 首先是原始数据，包括2000-2013年工业企业数据库数据和境外投资企业（机构）名录数据。
1650788694(1).jpg

Python代码包括数据预处理，字段删减统一改名，公司名处理，模糊匹配等。
1650788462(1).jpg

stata代码包括分年合并，非平衡面板处理，删除离群数据等。
1650788672(1).jpg

结果展示及字段说明：
处理后保留的字段和相关说明详见Excel表。 1650788945(1).jpg

1.该数据集一共含有3989940个样本值，合并了2000年-2013年的分年工业企业数据库，剔除了各年的重复值和失效样本，未做其他样本选择。
2.将各年数据分别与商务部境外投资企业名录进行匹配，采取了必要的模糊匹配，增加配对成功的数量，其中OFDIs列表示该企业当年对外投资的次数，一共匹配成功8900多笔投资，优于目前可以见到的一些匹配工作。
3.penal_id字段唯一标识面板中的不同企业，总面板数据是非平衡的，企业样本从一年到横跨十四年不等。
4.字符串变量基本选自工业企业数据库中的字符串，加入了省份变量和分词后的法人单位变量帮助匹配。
5.数据变量除了OFDIs之外，其他均来自于工业企业数据库，在一定程度上选取了2000年-2013年各年数据库字段的交集，即14年出现了12次以上的变量（这样做是因为即使缺失也可以通过插值补全），如果某个变量仅出现过个位次，则无法补全缺失值，无法使用该指标的面板数据。
6.通过以上方法选取了40多个企业指标，均为财务指标，包括资产类、负债类、权益类和损益类等，具体即缺失情况见“字段及缺失情况.xlsx”为进行微观层面的研究提供了坚实的基础。
7.但也不得不删去了一些变量，如仅在某几年出现的现金流量指标，以及行政区码、轻重工业、企业规模、从业人数、新产品产值、工业增加值、长期投资、流动资产净额、本年折旧、固定资产净值、无形资产、营业收入、营业成本、销售利润、投资收益、营业外收入、营业外支出、利税总额、应付福利总额、税金及附加、中间投入合计等指标。
数据说明、字段及缺失情况.xlsx (14.26 KB)

2022-4-24 15:44:48 上传

最终结果：
总数据300多万条，目前仅支持stata格式，敬请谅解！清洗后数据质量非常高且目前很新，谢绝议价！
工企与境外投资匹配结果 (76 Bytes, 需要: RMB 198 元)

2022-4-24 16:08:44 上传

最终结果stata版
需要: RMB 198 元 [购买]

分年数据也可出售，30一年，未合并，可见下方联系方式