由于本人论文需要,搜集整理了工业企业数据库和海关数据库等大量原始数据,进行了简单的数据清洗(格式、编码方式、合并记录等方式),并通过字段匹配的方式实现跨库匹配,现将部分数据和代码分享给大家(如需咨询请联系我,qq:2207385779)
原始数据来源:中国工业企业数据库、海关进出口数据以及其余数据库均来源于国家统计局提供的中国微观数据系统(官方渠道且数据更新到2014年,指标等与前面年份对照无误)
数据匹配依据:
两种方法匹配:1.通过企业名称和年份进行匹配;2.邮政编码和最后7位电话号码进行匹配
参考文献:
[1]钱学锋,王胜,陈勇兵.中国的多产品出口企业及其产品范围:事实与解释[J].管理世界,2013(01):9-27+66.
[2]田巍,余淼杰.中间品贸易自由化和企业研发:基于中国数据的经验分析[J].世界经济,2014,37(06):90-112.
[3]戴觅,余淼杰,Madhura Maitra.中国出口企业生产率之谜:加工贸易的作用[J].经济学(季刊),2014,13(02):675-698.
[4]张学立.中国工业企业数据库以及海关贸易数据库合并方法概述[J].商,2016(05):99.
使用的软件:stata、python
1.中国工业企业数据库(1998—2014)
2014年最新数据:
1998-2013数据:
2.海关数据库(2000—2016)
2.1 进口数据:
2.2 出口数据:
数据是csv格式的,如果需要stata的dta格式,可以有两种方法,一是通过stata的导入命令(设置相关参数,如图);二是利用pandas的read_stata()和to_stata()函数
3.工业企业和海关的匹配数据库
通过前述的匹配方法,对原始数据匹配如下:
3.1 2014年的匹配数据:
3.2 2000-2013年匹配数据
4.其他数据库
4.1 多种形式的匹配数据库
通过多行追加合并、关键词字段匹配等方式,通过python进行数据匹配,现已匹配好的数据如图:
因数据量比较大,且较为繁琐,暂时未上传网盘,有意者联系我(QQ:2207385779)
4.2 其他数据
例如分行业分区域的数据,数据较多且每个人需要的指标不同,如有具体需要请与我联系