楼主: yuren1982
36050 84

[数据管理求助] 海关数据库的处理   [推广有奖]

31
heric221 在职认证  发表于 2015-2-5 21:43:11
yuren1982 发表于 2015-2-5 21:38
非常感谢!你的意思是说先用电话号码匹配,得出匹配结果;然后再用邮编确认?drop掉邮编不一致的样本?
去掉电话号码前的区号,合并电话号码和邮编,这对每家企业是唯一的标识。
再以此进行精确匹配。我没试过,看了下样本,如果每家企业都有邮编,这方法应该可以。
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
日新少年 + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

32
yuren1982 发表于 2015-2-6 08:37:39
恩,这应该是个好办法,有一个小问题,在去掉电话号码区号的操作中,由于有些是三位区号,有些是四位区号,怎么处理呢?谢谢

33
heric221 在职认证  发表于 2015-2-6 19:16:14
yuren1982 发表于 2015-2-6 08:37
恩,这应该是个好办法,有一个小问题,在去掉电话号码区号的操作中,由于有些是三位区号,有些是四位区号, ...
不好意思,现在才回复。
我是看你的工业企业数据库中的电话号码无区号,而海关数据库中的电话号码有区号,为防止号码重叠的可能性,才建议去掉区号,合并电话号码和邮编,以标识企业。
这在EXCEL中很容易操作,可EXCEL最大只能处理1048576行数据,跟你的数据不是一个数量级的。
我刚开始接触STATA,只望哪位高手帮你解决了。

34
yuren1982 发表于 2015-2-6 21:23:56
恩恩,仍然很感谢!也给了我启发。看了一篇文献,好像可以只匹配电话号码的后7位,这样用substr就行了

35
SpencerMeng 在职认证  发表于 2015-2-7 09:19:16
yuren1982 发表于 2015-2-6 21:23
恩恩,仍然很感谢!也给了我启发。看了一篇文献,好像可以只匹配电话号码的后7位,这样用substr就行了
看看psmatch2命令

https://bbs.pinggu.org/thread-400046-1-1.html
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
日新少年 + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

36
yuren1982 发表于 2015-2-7 11:41:13
SpencerMeng 发表于 2015-2-7 09:19
看看psmatch2命令

https://bbs.pinggu.org/thread-400046-1-1.html
好的,马上去研究研究,谢谢!

37
wuyue1234 发表于 2015-2-7 20:37:01
你qq多少 一起讨论

38
wuyue1234 发表于 2015-2-7 20:48:41
SpencerMeng 发表于 2015-2-7 09:19
看看psmatch2命令

https://bbs.pinggu.org/thread-400046-1-1.html
与这个命令有什么关系?、

39
SpencerMeng 在职认证  发表于 2015-2-8 08:52:45
wuyue1234 发表于 2015-2-7 20:48
与这个命令有什么关系?、
我只是贴出了关于匹配可能会用到psmatch2的提示链接,并不是我想到的,所以附上idea出处。

40
Joissy_若韵 发表于 2015-2-10 12:07:35
我大概看了一下,您是想使用两个数据进行匹配是这样嘛?如果我没理解错的,就是把用表格名称(等唯一值)进行匹配。我使用stata很少,用EXCEL比较多,应该可以使用VLOOKUP进行匹配,(在匹配的原表格里,插入一列:输入公式=vlookup(被匹配的值第一个单元格,匹配范围,匹配的值在被匹配的表格里返回第几列的列值,0),应该就可以实现。
已有 1 人评分经验 收起 理由
葫芦娃大王 + 100 精彩帖子

总评分: 经验 + 100   查看全部评分

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-29 07:34