本文转自 经管联盟 公众号!
我们拿到的很多数据源是非标准化的,字段名称不统一、字段结构不统一,等等。在进行数据分析前都要对数据进行标准化处理,以达到理想的数据状态,如工业企业数据库。
工业企业数据库的原始格式是mdb格式,即access数据库格式。由于该数据库每年样本量有几十万条,通过Excel来进行数据处理比较困难。另外,2003版Excel最大行数是65536行 ;2007版本最大行数是1048576行,无法存储大量数据,更不要说进行数据处理了。
工业企业数据库数据处理资料分享链接:
链接:
https://pan.baidu.com/s/1t78Cx3jdton91Ph1OBDqXg
提取码:cxdp
对工业企业数据库的处理:
1、将工业企业数据库里面的表导出成txt格式
2、用insheet命令导入到stata里面
- local varname ///id ///co_name ///p_name ///……
- insheet `varname' using 2007年中国工业企业数据库.txt,clear
注:stata的变量名不能用中文,所有要预先制作一个变量英文映射表
3、对英文变量加上label
这里介绍Excel的两个公式
一个是vlookup,VLOOKUP函数是Excel中的一个纵向查找函数。由于各年公布的工业企业变量名称不完全一致。如工业中间投入这个指标,2006年公布的名称为中间投入合计,2007年公布的名称为工业中间投入合计。所有为了统一各年的名称,可以做一个名称标准表,然后通过vlookup公式查找对应的标准名称,这样对各年变量加label就会是统一的名称了。
另外一个公式是CONCATENATE,CONCATENATE 函数可将最多 255 个文本字符串合并为一个文本字符串。联接项可以是文本、数字、单元格引用或这些项的组合。工业企业数据库中总共有100多个字段,如果写100多个label var 会很麻烦。我们可以在Excel里面写一个label var 的公式,然后通过Excel往下拉,就能实现100多个label var 了,比写循环简单、实用。
4、各年数据合并,数据格式统一
由于数据统计不规范,转换后的数据格式不一定完全统一,如统一变量,有的年份是字符格式,有的年份是数字格式,这就需要统一化处理。
字符转数字,如:
- gen pro_code=real(substr(adminarea_code,1,2))
- destring(opening_year),gen(opening_year1) force
数字转字符,如:
- tostring varlist , {generate(newvarlist)|replace} [tostring_options]
5、格式统一后,然后选择需要的变量进行合并处理
- use qy1999.dta,clear append using qy2000.dta


雷达卡




京公网安备 11010802022788号







