*1995-2003 行政区划代码是6位数,2004-2013 行政区划代码是12位数
*2009(43万):一半没法人代码;2008(41万):没法人代码。经补充后,2009年剩下12万缺失值,2008年剩下5千缺失值。
*2010年只有34万观测值,比统计年鉴公布的45万还少很多
*1995-2002 使用的是1994年修订后的行业分类标准;2003-2012 使用的是2002年修订后的行业分类标准;2013 使用的是2011年修订后的行业分类标准。统一将它们化成2002年修订后的标准。
*2004数据显示,emp_f 实际上小于各分项之和,即emp_f- yjs_f -bks_f-dzs_f -gzs_f -czs_f- gz_f -zhz_f- chz_f- gj_f -zj_f -gg_f- zg_f<0,建议使用女性就业人数时时直接用各分项加总;employee1也小于各分项之和,即employee1- yjs -bks -dzs-gzs -czs- gz -zhz- chz- gj -zj -gg- zg<0 */
2008-2010年没有本年折旧和补贴收入数据depr_b btsr
《关于划分企业登记注册类型的规定》于1998年印发。只是2011年9月30日做了修改
2008-2009年只有实收资本,没有具体资本所有制类型。
2004年没有出口变量
2012年湖南省的数据缺失
废品废料行业(43)只在2003-2012年有,且该行业投入产出比异常较多,笔者删除该行业;
西藏数据异常较多,笔者删除西藏数据。
2010年数据缺失近1/4的样本(约11万家企业)
最终2008和2009年分别有5119 和120451个企业代码缺失,分别占总样本量的1/8和1/4
1995-2007年asset asset_o asset_n
2008-2009年asset
2010-2013年asset asset_o
firmname9513: 将所有工业企业(包括非制造业)的企业名称重复值剔除,duplicatesdrop firmname,force
95-13不重复firmname:1055438
95-13不重复id:1018280
* Rule:
* 尽可能少删除数据,尽可能多补充数据
*把每年所有变量的字符类型都调整成一致的了
*sale_yy 与sale_zy有时存在输入错误,如sale_yy=13569841,sale_zy=69841,使用前先检查一下
2004年没有出口变量,有母公司代码
1995-1999没计算firmIOratio
所有金额的单位都是“千元”