楼主: liuyangclick
27787 38

[数据软件处理] 小白VS中国工业企业数据库(2):数据匹配前处理 [推广有奖]

已卖:1949份资源

博士生

50%

还不是VIP/贵宾

-

威望
0
论坛币
12288 个
通用积分
97.3403
学术水平
67 点
热心指数
74 点
信用等级
60 点
经验
4686 点
帖子
174
精华
0
在线时间
388 小时
注册时间
2007-6-3
最后登录
2024-10-1

楼主
liuyangclick 学生认证  发表于 2017-8-1 19:44:38 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
  在数据匹配前,一个重要的程序是需要对相关变量进行处理,这是由于:

  第一,例如地区代码、行业代码、电话、邮政编码等变量是字符串格式,需要转化为数据格式。
  第二,以上变量存在着空值、非数字符号等,需要将其剔除。
  第三,需要将相关变量名称在年份间统一起来,最好用英文变量名。

  为此,需要打开每个年份的数据,然后看看地区代码、行业代码、电话、邮政编码等变量是否是字符串格式,然后剔除非数字符号,转化为数字格式。编制的STATA程序如下:

*设原字符型变量是行政区划代码 电话号码 邮政编码 行业代码 开业时间年 开业时间月:


using filename
global vars "行政区划代码 电话号码 邮政编码 行业代码 开业时间年 开业时间月"
qui foreach v of varlist $vars{
g x=`v'
d x
g n=.
forv i=1/`=r(width)'{
replace n=indexnot(x,"0123456789")
replace x=substr(x,1,n-1)+substr(x,n+1,.)
}
g z=real(x)
drop x n
rename z `v'1
}



  处理完毕后生成后缀为1的新变量,为了有所比较,所以才没用replace 命令替换掉原有的字符串变量。将所需要的变量名称改为相应英文名称,经过这一步,数据就可以进行数据匹配了!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:中国工业企业数据库 工业企业数据库 工业企业数 数据匹配 中国工业

已有 2 人评分经验 学术水平 热心指数 信用等级 收起 理由
日新少年 + 2 + 2 + 2 精彩帖子
remlus + 100 精彩帖子

总评分: 经验 + 100  学术水平 + 2  热心指数 + 2  信用等级 + 2   查看全部评分

本帖被以下文库推荐

依旧执着,但已渐淡如烟。

沙发
西门高 发表于 2017-8-1 20:16:37
谢谢分享

藤椅
改革同步 发表于 2017-8-1 20:32:11
好东西,谢谢分享

板凳
liuyangclick 学生认证  发表于 2017-8-2 09:59:28
西门高 发表于 2017-8-1 20:16
谢谢分享
共同进步,请关注后续。

报纸
liuyangclick 学生认证  发表于 2017-8-2 10:01:27
改革同步 发表于 2017-8-1 20:32
好东西,谢谢分享
共同进步,请关注后续。

地板
zuse007 发表于 2017-8-4 21:11:01
我也刚刚得到一份到09年的数据,还不太会用。
听说数据已经更新到2013年?
共同学习,共同进步!

7
liuyangclick 学生认证  发表于 2017-8-6 08:55:22
zuse007 发表于 2017-8-4 21:11
我也刚刚得到一份到09年的数据,还不太会用。
听说数据已经更新到2013年?
共同学习,共同进步!
是的,但听说08年的数据有问题。

8
bzq198786 发表于 2017-8-8 15:55:15
楼主,最近我也在学习工业企业数据库,加个QQ共同学习,我QQ是422866687,谢谢

9
liuyangclick 学生认证  发表于 2017-8-10 13:50:53
bzq198786 发表于 2017-8-8 15:55
楼主,最近我也在学习工业企业数据库,加个QQ共同学习,我QQ是422866687,谢谢
我的是724696126,我已经处理完毕,可以交流一下。

10
日新少年 学生认证  发表于 2017-9-13 08:53:52
谢谢分享

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 01:11