1.不同于网络上流传的其他任何版本,本数据集的清洗和匹配从11月初开始,直到元旦前夕才彻底整理完毕,由我和一位统计系的老师(教授职称,研究方向为数据科学与大数据统计)以及我的导师(国际贸易与微观计量)和我同门师兄师姐6-7人抽出自己闲暇时间共同完成,众所周知,微观数据库的匹配与整理是极其复杂的,并且工业企业数据库和海关数据库本身都是存在极多的错误和偏差,需要认真核实错误并进行删改,这份数据集起初是我们学院为了让新入学的硕博研究生尽快上手科研而用,在我们苦不堪言疯狂吐槽学校补贴不够用的情况下,老师们同意将此数据集公开出售回回血,因此,我们郑重承诺:本数据集是全网最科学、真实、准确的工企与海关匹配数据库,可以进行全要素生产率、全球价值链、企业创新绩效和金融等任何方面的学术研究。
2.粗略计算观测值近上百万条,由于文件体积庞大,防止大家打不开,这15年的数据分为3个dta文件分享给大家(不怕质疑!90%的工企-海关数据库几乎是一年一个dta文件,琐碎不堪!),链接内附赠整理好的一个1800行匹配代码do文件可以直接运行,同时将全套匹配代码逐年(一年一个代码文件,如果整体的代码运行出错您可以逐年练习)、逐个(merge命令等清洗命令)分为二十几个代码文件无偿赠送给大家,您要知道,全网任何一份工企海关数据库,其匹配代码都是单独出售的,不乏把代码卖出199价格的人,在此鄙视,本数据集无偿赠送给您!
3.数据匹配的理论方法请参考余淼杰和田巍(2014)的文章,综合采用企业邮政编码和电话号码(后七位)或企业名称进行匹配,(详情可以参见附件中的全套代码)确保万无一失,坚决不和连匹配都无法对齐的三流数据同流合污,也不愿意把每年的数据分成一个文件零零散散;极端值、错误值悉数经过手动筛选和删改,部分规律性的登记错误也由Python编程进行多次整理,最后由人工反复测试而成,确保数据的科学和准确。
除本数据集外,如果您需要单独的工业企业数据库、海关数据库、专利数据库和各大年鉴等,可以私信我或添加企鹅1425709777进行咨询(不买也做朋友),常驻论坛,私信会在2小时内及时回复,大家可以去任意数据平台或网站寻找,类似的数据价格至少是三四百块,代码还是单独出售,这里我给您白菜价,数据集完美还附赠全套匹配代码,祝您学术顺利、万事如意!
本人国际贸易与应用计量方向硕士在读,深知学术不易,绝不是东拼西凑或者转售别人数据的贩子,分享给大家的数据集质量有目共睹,好评如潮,包售后,有问题随时交流!
点击购买本数据集:
![](https://bbs-cdn.datacourse.cn/static/image/filetype/yunpan.jpg)
本人其他数据,欢迎关注:
①【已匹配】1998-2014年工业企业数据库和企业专利匹配结果(观测值近500万,手动清洗,全网最科学、最稳健、最显著)
https://bbs.pinggu.org/thread-11223418-1-1.html
②2004-2020年省际绿色全要素生产率及其分解项、原始数据,附带控制变量和理论推导
https://bbs.pinggu.org/thread-10877683-1-1.html
③2000年-2020年共21年我国所有地级市绿色全要素生产率(GTFP),8799个观测值
https://bbs.pinggu.org/thread-10881416-1-1.html
④2000-2020年地级市绿色全要素生产率原始数据,281个城市5901个观测值
https://bbs.pinggu.org/thread-10911114-1-1.html
⑤2004-2019年省际绿色全要素生产率及其分解项、原始数据,附带控制变量和理论推导(比第一个数据少一年,便宜一些,按需购买)
https://bbs.pinggu.org/thread-10871021-1-1.html
⑥【全网最新】2005-2021年省际绿色全要素生产率与分解项、原始数据、控制变量和推导!
https://bbs.pinggu.org/thread-11233927-1-1.html
⑦【全网指标数最全】1985-2021我国地级市全统计指标面板数据,适用任何研究方向!
https://bbs.pinggu.org/thread-11261776-1-1.html