请选择 进入手机版 | 继续访问电脑版
按年份索引
按国、省、市索引
综合索引
-->
返回列表
提升主题| 本版置顶| 关闭主题| 变更主题颜色| 抢沙发| 顶贴| 显身卡| 道具中心
楼主: liuyangclick
24046 38

[数据软件处理] 小白VS中国工业企业数据库(2):数据匹配前处理 [推广有奖]

博士生

50%

还不是VIP/贵宾

-

威望
0
论坛币
11687 个
通用积分
89.2317
学术水平
66 点
热心指数
73 点
信用等级
59 点
经验
4683 点
帖子
173
精华
0
在线时间
387 小时
注册时间
2007-6-3
最后登录
2024-2-5

liuyangclick 学生认证  发表于 2017-8-1 19:44:38 |显示全部楼层 |坛友微信交流群

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
  在数据匹配前,一个重要的程序是需要对相关变量进行处理,这是由于:

  第一,例如地区代码、行业代码、电话、邮政编码等变量是字符串格式,需要转化为数据格式。
  第二,以上变量存在着空值、非数字符号等,需要将其剔除。
  第三,需要将相关变量名称在年份间统一起来,最好用英文变量名。

  为此,需要打开每个年份的数据,然后看看地区代码、行业代码、电话、邮政编码等变量是否是字符串格式,然后剔除非数字符号,转化为数字格式。编制的STATA程序如下:

*设原字符型变量是行政区划代码 电话号码 邮政编码 行业代码 开业时间年 开业时间月:


using filename
global vars "行政区划代码 电话号码 邮政编码 行业代码 开业时间年 开业时间月"
qui foreach v of varlist $vars{
g x=`v'
d x
g n=.
forv i=1/`=r(width)'{
replace n=indexnot(x,"0123456789")
replace x=substr(x,1,n-1)+substr(x,n+1,.)
}
g z=real(x)
drop x n
rename z `v'1
}



  处理完毕后生成后缀为1的新变量,为了有所比较,所以才没用replace 命令替换掉原有的字符串变量。将所需要的变量名称改为相应英文名称,经过这一步,数据就可以进行数据匹配了!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:中国工业企业数据库 工业企业数据库 工业企业数 数据匹配 中国工业

已有 2 人评分经验 学术水平 热心指数 信用等级 收起 理由
日新少年 + 2 + 2 + 2 精彩帖子
remlus + 100 精彩帖子

总评分: 经验 + 100  学术水平 + 2  热心指数 + 2  信用等级 + 2   查看全部评分

本帖被以下文库推荐

依旧执着,但已渐淡如烟。
西门高 发表于 2017-8-1 20:16:37 |显示全部楼层 |坛友微信交流群
谢谢分享

使用道具

好东西,谢谢分享

使用道具

liuyangclick 学生认证  发表于 2017-8-2 09:59:28 |显示全部楼层 |坛友微信交流群
西门高 发表于 2017-8-1 20:16
谢谢分享
共同进步,请关注后续。

使用道具

liuyangclick 学生认证  发表于 2017-8-2 10:01:27 |显示全部楼层 |坛友微信交流群
改革同步 发表于 2017-8-1 20:32
好东西,谢谢分享
共同进步,请关注后续。

使用道具

zuse007 发表于 2017-8-4 21:11:01 |显示全部楼层 |坛友微信交流群
我也刚刚得到一份到09年的数据,还不太会用。
听说数据已经更新到2013年?
共同学习,共同进步!

使用道具

liuyangclick 学生认证  发表于 2017-8-6 08:55:22 |显示全部楼层 |坛友微信交流群
zuse007 发表于 2017-8-4 21:11
我也刚刚得到一份到09年的数据,还不太会用。
听说数据已经更新到2013年?
共同学习,共同进步!
是的,但听说08年的数据有问题。

使用道具

bzq198786 发表于 2017-8-8 15:55:15 |显示全部楼层 |坛友微信交流群
楼主,最近我也在学习工业企业数据库,加个QQ共同学习,我QQ是422866687,谢谢

使用道具

liuyangclick 学生认证  发表于 2017-8-10 13:50:53 |显示全部楼层 |坛友微信交流群
bzq198786 发表于 2017-8-8 15:55
楼主,最近我也在学习工业企业数据库,加个QQ共同学习,我QQ是422866687,谢谢
我的是724696126,我已经处理完毕,可以交流一下。

使用道具

日新少年 学生认证  发表于 2017-9-13 08:53:52 |显示全部楼层 |坛友微信交流群
谢谢分享

使用道具

返回列表
您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-29 10:17