请选择 进入手机版 | 继续访问电脑版
按年份索引
按国、省、市索引
综合索引
-->
返回列表
提升主题| 本版置顶| 关闭主题| 变更主题颜色| 抢沙发| 顶贴| 显身卡| 道具中心
楼主: j610f2012
3300 1

[公开数据] stata格式工业企业数据库处理 [推广有奖]

  • 1关注
  • 3粉丝

讲师

84%

还不是VIP/贵宾

-

威望
0
论坛币
51977 个
通用积分
232.6765
学术水平
8 点
热心指数
15 点
信用等级
7 点
经验
7927 点
帖子
315
精华
0
在线时间
945 小时
注册时间
2013-5-13
最后登录
2024-4-6

j610f2012 在职认证  发表于 2019-5-29 19:53:31 |显示全部楼层 |坛友微信交流群
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

                                                                                                                               本文转自 经管联盟 公众号

我们拿到的很多数据源是非标准化的,字段名称不统一、字段结构不统一,等等。在进行数据分析前都要对数据进行标准化处理,以达到理想的数据状态,如工业企业数据库。

工业企业数据库的原始格式是mdb格式,即access数据库格式。由于该数据库每年样本量有几十万条,通过Excel来进行数据处理比较困难。另外,2003版Excel最大行数是65536行 ;2007版本最大行数是1048576行,无法存储大量数据,更不要说进行数据处理了。

工业企业数据库数据处理资料分享链接:

链接:

https://pan.baidu.com/s/1t78Cx3jdton91Ph1OBDqXg

提取码:cxdp

对工业企业数据库的处理:

1、将工业企业数据库里面的表导出成txt格式

1.png

2、用insheet命令导入到stata里面

  1. local varname ///id   ///co_name   ///p_name   ///……
  2. insheet `varname' using 2007年中国工业企业数据库.txt,clear
复制代码

注:stata的变量名不能用中文,所有要预先制作一个变量英文映射表

3、对英文变量加上label

这里介绍Excel的两个公式

一个是vlookup,VLOOKUP函数是Excel中的一个纵向查找函数。由于各年公布的工业企业变量名称不完全一致。如工业中间投入这个指标,2006年公布的名称为中间投入合计,2007年公布的名称为工业中间投入合计。所有为了统一各年的名称,可以做一个名称标准表,然后通过vlookup公式查找对应的标准名称,这样对各年变量加label就会是统一的名称了。

另外一个公式是CONCATENATE,CONCATENATE 函数可将最多 255 个文本字符串合并为一个文本字符串。联接项可以是文本、数字、单元格引用或这些项的组合。工业企业数据库中总共有100多个字段,如果写100多个label var 会很麻烦。我们可以在Excel里面写一个label var 的公式,然后通过Excel往下拉,就能实现100多个label var 了,比写循环简单、实用。

4、各年数据合并,数据格式统一

由于数据统计不规范,转换后的数据格式不一定完全统一,如统一变量,有的年份是字符格式,有的年份是数字格式,这就需要统一化处理。

字符转数字,如:

  1. gen pro_code=real(substr(adminarea_code,1,2))
  2. destring(opening_year),gen(opening_year1) force
复制代码

数字转字符,如:

  1. tostring varlist , {generate(newvarlist)|replace} [tostring_options]
复制代码

5、格式统一后,然后选择需要的变量进行合并处理

  1.   use qy1999.dta,clear  append using qy2000.dta
复制代码





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


1812087741
houlushiguang 发表于 2019-5-31 06:43:41 来自手机 |显示全部楼层 |坛友微信交流群
j610f2012 发表于 2019-5-29 19:53
...
很有价值的分享

使用道具

返回列表
您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-16 14:27