楼主: yuren1982
36044 84

[数据管理求助] 海关数据库的处理   [推广有奖]

11
yuren1982 发表于 2015-1-30 08:33:45
SpencerMeng 发表于 2015-1-29 20:42
您好,stata13可以容纳灰常灰常长的字符。。
恩,我现在用的stata se 13,确实变量值可以为中文,但好像变量名还是不能为中文吧?
另外,如果用企业名称进行模糊匹配,是不是需要把每个企业名都拆分成单独的字符,然后比对字符重复的个数呢?请赐教

12
yizst2 发表于 2015-1-30 10:03:05
yuren1982 发表于 2015-1-28 22:37
靠企业名称匹配,需要用到什么软件呢?
stata就可以

13
SpencerMeng 在职认证  发表于 2015-1-31 21:22:36
yuren1982 发表于 2015-1-30 08:33
恩,我现在用的stata se 13,确实变量值可以为中文,但好像变量名还是不能为中文吧?
另外,如果用企业名 ...
变量名可以是中文啊,但是用中文标注变量名。。。。反正我看着不是很习惯,英文的就可以呢,简便明了。

企业名称模糊匹配,不清楚什么是模糊匹配。。。

这样,建议楼主举出二三十个观测值的dta例子,并说明想要得到的结果,应该比较好说些。

14
yuren1982 发表于 2015-2-2 10:32:51
SpencerMeng 发表于 2015-1-31 21:22
变量名可以是中文啊,但是用中文标注变量名。。。。反正我看着不是很习惯,英文的就可以呢,简便明了。
...
版主你好!是这样,我的原始数据是access格式的,变量名称均为中文名,我用StatTransfer 12直接转换成.dta进行处理,可是很奇怪的有些变量名称可以在stata13中改成英文,有些就无法改成英文,而且无法改成英文的中文名称变量就无法进行任何命令操作,反馈的结果均为“法人单位名称 invalid name”等形式。这是什么原因呢?
附件中已上传两份数据,为了尽量简便,我只筛选了广州一地的企业,但也有几千家。我想要的结果是,使用两份数据的企业名称(company)进行匹配,但如果直接匹配成功率很低,因为同一家企业的企业名称在不同数据库会有一些细微差别,有没有更好的办法把这些实际上是同一家企业但无法正常匹配出来的匹配在一起呢?比如,企业名称中多少个字符相同?
非常感谢版主!请不吝赐教!

example2.dta
下载链接: https://bbs.pinggu.org/a-1726146.html

322.53 KB

example1.dta

165.48 KB

已有 1 人评分学术水平 热心指数 信用等级 收起 理由
日新少年 + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

15
SpencerMeng 在职认证  发表于 2015-2-3 21:25:31
yuren1982 发表于 2015-2-2 10:32
版主你好!是这样,我的原始数据是access格式的,变量名称均为中文名,我用StatTransfer 12直接转换成.dt ...
不好意思,刚有时间回复您。

statransfer软件转换数据可能出现问题。 改不了名字的用rename在stata中改吧

模糊匹配  给您个有用的命令吧,希望能给你有所启示。
  1. *仅保留公司名字中含有st的观测值
  2. clear
  3. inp str10 firmid var1
  4. mkdfst 2
  5. mdstee 4
  6. stjkdd 3
  7. jkafje 2
  8. fjakla 3
  9. end

  10. keep if strmatch(firmid,"*st*")
复制代码
已有 2 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
葫芦娃大王 + 100 + 5 精彩帖子
日新少年 + 1 + 1 + 1 精彩帖子

总评分: 经验 + 100  论坛币 + 5  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

16
yuren1982 发表于 2015-2-4 15:26:10
SpencerMeng 发表于 2015-2-3 21:25
不好意思,刚有时间回复您。

statransfer软件转换数据可能出现问题。 改不了名字的用rename在stata中改 ...
版主,请原谅我的无知,我实在没看懂你的意思,能不能把每条命令解释一下呢?
还有,你的这个命令是不是只是个大体形式,而不是根据我给出的两个数据样本直接进行操作的命令啊?
另外,关于变量名为英文的问题,如果能用rename命令,就不算是个问题了

17
歌谣 发表于 2015-2-4 20:00:22
楼主您好,请问海关数据库怎样才能获取?谢谢!

18
SpencerMeng 在职认证  发表于 2015-2-4 21:20:19
yuren1982 发表于 2015-2-4 15:26
版主,请原谅我的无知,我实在没看懂你的意思,能不能把每条命令解释一下呢?
还有,你的这个命令是不是 ...
那只是一个例子,用strmatch可以选出你想要的某些含指定字符串的观测值,您run一下就可以看出门道了。

我这只是给您一点启示,您指的模糊匹配,我就想到用strmatch把含有某个特定字符串的观测值留下,比如说把他们group归为一类并标号,再merge。

不能改成英文名?那是什么情况。。。。
已有 1 人评分经验 论坛币 收起 理由
葫芦娃大王 + 10 + 10 精彩帖子

总评分: 经验 + 10  论坛币 + 10   查看全部评分

19
yuren1982 发表于 2015-2-5 08:29:39
SpencerMeng 发表于 2015-2-4 21:20
那只是一个例子,用strmatch可以选出你想要的某些含指定字符串的观测值,您run一下就可以看出门道了。

...
哦,那你的意思是说,我得先确定指定字符串吗?比如我需要确定“进出口”,然后命令就找出所有含有“进出口”字符的公司名称?

20
yuren1982 发表于 2015-2-5 08:30:16
歌谣 发表于 2015-2-4 20:00
楼主您好,请问海关数据库怎样才能获取?谢谢!
这个,应该都是所在单位花钱购买的吧~

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-29 05:22