楼主: ajzyyp
5798 16

[经管数据集] 中国境外投资企业(机构)名录与中国工业企业数据库匹配 [推广有奖]

  • 0关注
  • 8粉丝

博士生

33%

还不是VIP/贵宾

-

威望
0
论坛币
2104 个
通用积分
10.5344
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
1113 点
帖子
45
精华
0
在线时间
481 小时
注册时间
2017-5-9
最后登录
2024-3-20

楼主
ajzyyp 学生认证  发表于 2022-4-24 16:16:13 |只看作者 |坛友微信交流群|倒序 |AI写论文
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
该数据集是研究微观企业及其对外直接投资的重要数据集!

蒋冠宏等众多著名国际商务学者均使用该数据集产出重要研究成果!


具体的处理方法为:
        参考Brandt等(2012)对数据库进行了逐年合并,并对错误数据进行了清洗。将《名录》与《工业企业数据库》按照企业进行匹配合并,以蒋冠宏等(2015)为代表的众多学者在研究相关问题时均对两个数据库进行了合并,但由于《工业企业数据库》错误较多且企业存在改名的现象,导致两个数据库匹配成功率较低。为解决这一问题,采用了独创的同地区模糊匹配法,具体步骤如下:
        首先,根据《工业企业数据库》中错误率较低的“地区编码”和“邮政编码”确定该企业所在(副)省级单位(包括省、直辖市、自治区和计划单列市),未能确定企业所在地点的样本不足1%(398万余个原始样本中不足2万),剔除这部分样本。然后,采用文本处理工具将两个数据库中的企业名进行分词,提取出核心部分,将地点和“有限责任公司”等通用后缀去除,如“南京盛东化工有限公司”,提出的核心部分为“盛东化工”。使用模糊匹配程序包将两个数据库进行匹配,模糊匹配提高了匹配的成功率,如“中国石油”和“中石油”是一家公司,如果使用精确匹配,则不能匹配成功,但不能过于模糊,否则“中石油”和“中石化”将被识别成同一家公司,根据该程序包的使用经验,将模糊匹配阈值设为80%。最后,按年按地区进行匹配,这样可以大大提高匹配的成功率,在同一省份的同一年份,每个企业的匹配空间大幅减小,重名的可能性降低,此外,去除地名开头和通用后缀避免了如“北京”和“北京市”这样同一意思但字符不同所造成的差别,使得成功率进一步提高。最终,经过以上处理,在2001—2013年的样本区间上,将两个数据库匹配合并,共获得3989940个样本,其中,共有6889家工业企业进行对外直接投资,共投资8429次,匹配成功率大幅高于同类文献。
       由于《工业企业数据库》中统计错误和缺失值较多,参考Feenstra等(2014)、聂辉华等(2012)对原始数据进行清洗和精简,包括(1)剔除了雇员数少于8人且多于100万人的样本;(2)剔除了同一年内重复或错误的记录以提高样本信息的准确度;(3)剔除了一些明显错误,如工业总产值、工业增加值、固定资产数值非正数的样本;(4)剔除了存续年份大于100年或小于0年的样本等;(5)本文将按年列示的数据库根据企业名称、法人代表名称、地理位置等信息匹配成非平衡面板,非平衡面板中,由于统计披露和逐年匹配误差,部分企业出现时间较短或者不连续,本文仅选择数据连续存在3年以上的企业,剔除了不足3年的样本。最终,精简之后的样本量总数为742788,共2492家工业企业进行对外直接投资,投资3140笔。总结来看,在工业企业数据库的基础上匹配了两个新变量,第一个是该企业该年是否进行了对外直接投资;第二,同一家企业每一年可能会有多笔对外直接投资,本文统计了匹配到的样本数,即该企业该年对外直接投资的笔数。



处理过程和代码展示:        首先是原始数据,包括2000-2013年工业企业数据库数据和境外投资企业(机构)名录数据。
1650788694(1).jpg
      Python代码包括数据预处理,字段删减统一改名,公司名处理,模糊匹配等。

1650788462(1).jpg 1650788493(1).jpg 1650788507(1).jpg
stata代码包括分年合并,非平衡面板处理,删除离群数据等。
1650788672(1).jpg


结果展示及字段说明:
      处理后保留的字段和相关说明详见Excel表。 1650788945(1).jpg 1650788968(1).jpg 1.该数据集一共含有3989940个样本值,合并了2000年-2013年的分年工业企业数据库,剔除了各年的重复值和失效样本,未做其他样本选择。
2.将各年数据分别与商务部境外投资企业名录进行匹配,采取了必要的模糊匹配,增加配对成功的数量,其中OFDIs列表示该企业当年对外投资的次数,一共匹配成功8900多笔投资,优于目前可以见到的一些匹配工作。
3.penal_id字段唯一标识面板中的不同企业,总面板数据是非平衡的,企业样本从一年到横跨十四年不等。
4.字符串变量基本选自工业企业数据库中的字符串,加入了省份变量和分词后的法人单位变量帮助匹配。
5.数据变量除了OFDIs之外,其他均来自于工业企业数据库,在一定程度上选取了2000年-2013年各年数据库字段的交集,即14年出现了12次以上的变量(这样做是因为即使缺失也可以通过插值补全),如果某个变量仅出现过个位次,则无法补全缺失值,无法使用该指标的面板数据。
6.通过以上方法选取了40多个企业指标,均为财务指标,包括资产类、负债类、权益类和损益类等,具体即缺失情况见“字段及缺失情况.xlsx”为进行微观层面的研究提供了坚实的基础。
7.但也不得不删去了一些变量,如仅在某几年出现的现金流量指标,以及行政区码、轻重工业、企业规模、从业人数、新产品产值、工业增加值、长期投资、流动资产净额、本年折旧、固定资产净值、无形资产、营业收入、营业成本、销售利润、投资收益、营业外收入、营业外支出、利税总额、应付福利总额、税金及附加、中间投入合计等指标。
数据说明、字段及缺失情况.xlsx (14.26 KB)

最终结果:

         总数据300多万条,目前仅支持stata格式,敬请谅解!清洗后数据质量非常高且目前很新,谢绝议价!
工企与境外投资匹配结果 (76 Bytes, 需要: RMB 198 元)          分年数据也可出售,30一年,未合并,可见下方联系方式











二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:中国工业企业数据库 工业企业数据库 工业企业数 中国工业 境外投资 模糊匹配 境外投资企业(机构)备案结果公开名录列表;境外投资企业(机构)名录;商务部境外投资企业;境外投资企业名录 中国工业企业数据库 匹配对外投资企业名录与中国工业企业数据库的数据

1650788311(1).jpg (19.52 KB)

1650788311(1).jpg

1650788493(1).jpg (31.85 KB)

1650788493(1).jpg

1650788945(1).jpg (71.95 KB)

1650788945(1).jpg

沙发
小小蜗 发表于 2022-4-29 20:22:06 |只看作者 |坛友微信交流群
包括所有代码处理过程吗

使用道具

藤椅
小小蜗 发表于 2022-4-29 20:54:58 |只看作者 |坛友微信交流群
楼主,出代码吗

使用道具

板凳
ajzyyp 学生认证  发表于 2022-4-30 10:41:54 |只看作者 |坛友微信交流群
小小蜗 发表于 2022-4-29 20:54
楼主,出代码吗
可以出 +Q751621571 商量

使用道具

报纸
Uhlancat 学生认证  发表于 2022-6-8 20:21:24 |只看作者 |坛友微信交流群
加你QQ 你都不回复

使用道具

地板
ajzyyp 学生认证  发表于 2022-6-9 11:39:46 |只看作者 |坛友微信交流群
Uhlancat 发表于 2022-6-8 20:21
加你QQ 你都不回复
没有啊 一直有回复啊

使用道具

7
Uhlancat 学生认证  发表于 2022-6-9 15:19:30 |只看作者 |坛友微信交流群
已经购买,确实是全网匹配最好数据。
相比自己匹配,仍有很多问题。

使用道具

8
clcl00082 学生认证  发表于 2022-6-15 20:31:52 |只看作者 |坛友微信交流群
看不到楼主联系方式 能再发下吗

使用道具

9
clcl00082 学生认证  发表于 2022-6-15 21:09:38 |只看作者 |坛友微信交流群
ajzyyp 发表于 2022-6-9 11:39
没有啊 一直有回复啊
看不到楼主QQ 能再发一下吗

使用道具

10
ajzyyp 学生认证  发表于 2022-6-17 01:48:44 |只看作者 |坛友微信交流群
clcl00082 发表于 2022-6-15 20:31
看不到楼主联系方式 能再发下吗
Q751621571

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-26 20:40