|
下载样本初步检查后发现:
(1)工企库98-14原始数据在处理时用的是stata13及以前版本的dta文件,处理完后转码为stata14的dta文件,可参见yyzt变量(营业状态)标签为乱码。
(2)工企与污染合并库的数据来源为EPS公司中国微观经济数据查询系统中的绿色发展数据库,可能是线下版本,参见样本中有企业唯一识别码(是EPS公司在处理时生成的),之前与EPS进行过业务对接,其线上版本并未提供企业名称等企业身份识别信息;污染原始数据的样本统计缺少11年,可能楼主没能获取到11年的污染库。目前已知的污染库来源有两套,两者的污染信息在部分年份有少量差异,简单区分方法为一套每年均含有行业信息,另一套仅有靠后的年份有行业信息。11年与12年数据两套正好各有一年更好,如果能同时获取这两套数据,可以每年选择指标情况最好的。
。
(3)海关数据的样本仅提供了15年的,为包含电话号码、邮编等信息的版本。但07-15年一般认为有两套海关数据,一套数据提供了电话邮编等信息,其贸易方式包含十几种,却有一部分缺失值,处理时或许会作为一般贸易,但由此造成一般贸易比重与宏观数据不符;另一套海关提供一般、加工和其他等3种贸易方式,为正确版本数据,简单根据分国别加总与宏观数据对比即可进行验证。
(4)工企+海关匹配数据根据样本中提供的文件名“工企+海关(2013)-1-50000行.csv”可以推断来自EPS的中国微观经济数据查询系统,样本文件内提供的“工业企业标识码”和“海关企业标识码”也可以作证判断。优点是提供了企业-年份层面的进出口信息,缺点是无法提供企业-进出口类型-贸易方式-贸易国别-年份层面的数据,无法根据Fan et al.(2015),施炳展(2014)等的方法计算出口产品质量等指标,也不能做较为细致的分析。
(5)工企+专利匹配数据中的工企数据可能来源于锐思或EPS数据库,参见其提供了行业大中小类的名称,而艾维格等数据公司并未直接提供行业细分类型的名称;专利数据来源无法判断,从样本中找了一家企业(四川省邛崃市金利实业有限公司),将其与个人匹配的工企-专利匹配数据进行对比,发现结果很接近,差异可能是处理过程或专利数据的数据源不同。不过仅能说明两者的匹配结果可以对得上,不能判断其质量一定好。这份数据的优点是含有三类细分专利的申请或授权量,可以满足一定的实证需求;缺点是没有包含专利被引用或被他引信息,且并未提供企业-专利层面的匹配结果,难以根据张杰等(2018)经济研究,Aghion(2018)RES的思路衡量专利质量。
(6)上述数据库中出现的企业名称、电话、邮编等字段可能经过了一定清洗,但是清洗程度远远不够。一般在工企库匹配面板数据前,以企业名称为例,应该将企业名称中的全角和半角字符统一(涉及英文字母、数字),将非正常的标点符号(△、*)等去除,将中英文括号统一等,将如“北京市图书有限公”补全为“北京市图书有限公司”或仅选取企业名称关键字段结合统一版本的省地县码(对照表见民政部官网)进行匹配。以上处理字段做法来源于已发表文章在投稿时的附录,这里仅用于说明,希望不要直接复制内容和思路。
这里仅根据楼主提供的数据样本情况进行说明,在论坛有偿分享数据对没能购置数据库的研究者特别是我们学生也是一种福音,有理解错误的点欢迎交流
|