楼主: wudizhao
9026 9

[编程问题求助] 公司名称的模糊匹配问题,如何编程? [推广有奖]

已卖:1份资源

教授

1%

还不是VIP/贵宾

-

威望
0
论坛币
33 个
通用积分
19.4165
学术水平
8 点
热心指数
5 点
信用等级
0 点
经验
2109 点
帖子
516
精华
0
在线时间
1489 小时
注册时间
2009-7-31
最后登录
2025-12-13

楼主
wudizhao 在职认证  发表于 2015-10-29 15:17:11 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
请问论坛里的大牛,两个数据库之间精确匹配用的是merge命令,但如果要实现两个数据库中公司名称的模糊匹配,比如两个公司名称除去“有限责任公司”几个字外如果有两个字是相同的,我就把它们匹配起来,这样如何做到?怎样编程?请各位大神们不吝赐教!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:公司名 有限责任公司 Merge 怎样编程 数据库 如何

已有 1 人评分经验 论坛币 收起 理由
葫芦娃大王 + 10 + 10 鼓励积极发帖讨论

总评分: 经验 + 10  论坛币 + 10   查看全部评分

沙发
夏目贵志 发表于 2015-11-1 09:28:49
把数据里不需要对应的字删掉然后再考虑使用merge

藤椅
wudizhao 在职认证  发表于 2015-11-1 10:01:46
夏目贵志 发表于 2015-11-1 09:28
把数据里不需要对应的字删掉然后再考虑使用merge
这么做是不对的。我感觉还得自己编程,比如两个公司名称中有八个以上的汉字相同就匹配在一起。我不知道怎么用stata编,所以我打算试试vba。

板凳
夏目贵志 发表于 2015-11-1 10:59:25
wudizhao 发表于 2015-11-1 10:01
这么做是不对的。我感觉还得自己编程,比如两个公司名称中有八个以上的汉字相同就匹配在一起。我不知道怎 ...
为什么不对?不过你说不对就不对咯。本来就只是个建议 :)
不过你的方法也有问题,“南京市公交有限责任公司”和“南京市地铁有限责任公司”,“南京市有限责任公司”一共九个字......

报纸
wudizhao 在职认证  发表于 2015-11-1 11:21:15
夏目贵志 发表于 2015-11-1 10:59
为什么不对?不过你说不对就不对咯。本来就只是个建议 :)
不过你的方法也有问题,“南京市公交有限责任 ...
对不起,我有点急,语气太鲁莽了,请您谅解!我只是觉得您的方法不好操作,按您的方法,怎样把数据里不需要对应的字删掉?比如我可以把“有限责任公司”几个字删掉,然后呢怎么匹配?感觉还是不行啊。我的做法是,两个公司名称中有六个以上的汉字相同就匹配在一起,比如“万科企业股份有限公司”和“上海万科房地产集团有限公司”匹配起来,然后再人工检查,排除确实不匹配的样本。

地板
夏目贵志 发表于 2015-11-1 12:39:35
wudizhao 发表于 2015-11-1 11:21
对不起,我有点急,语气太鲁莽了,请您谅解!我只是觉得您的方法不好操作,按您的方法,怎样把数据里不需 ...
没关系。如果说比较相同的字数是基本的思路的话,我说的把不需要用来对应的删掉就是为了能更好的比较,即,把明显会重复并造成干扰的部分删掉。具体删什么不删什么得看你数据实际是什么样子的。
本来Stata处理文本并不是强项,更何况是中文(英文的话还可以考虑soundex)。能用别的软件匹配的话不要跟stata死磕。

你说的例子“万科企业股份有限公司”和“上海万科房地产集团有限公司”到底是属于该配对的还是不该配对的呢?比如一个集团控股的几家公司是要配对还是不配对?按什么标准决定?这些因素都要考虑。实在不行还是人工检查一下吧。
已有 1 人评分经验 论坛币 收起 理由
葫芦娃大王 + 10 + 10 我很赞同

总评分: 经验 + 10  论坛币 + 10   查看全部评分

7
wudizhao 在职认证  发表于 2015-11-1 16:45:55
夏目贵志 发表于 2015-11-1 12:39
没关系。如果说比较相同的字数是基本的思路的话,我说的把不需要用来对应的删掉就是为了能更好的比较,即 ...
好的,谢谢你!我就按照这个思路试一下吧

8
夏目贵志 发表于 2015-11-2 00:13:39
wudizhao 发表于 2015-11-1 16:45
好的,谢谢你!我就按照这个思路试一下吧
祝顺利~要是找到能让stata自动完成的方法请来分享一下哦!
已有 1 人评分经验 论坛币 收起 理由
葫芦娃大王 + 10 + 10 好的意见建议

总评分: 经验 + 10  论坛币 + 10   查看全部评分

9
liu980303562 发表于 2018-7-4 10:42:44
楼主有解决方法了么?我也在做这个方面的努力,请问可以支教一下吗?

10
天南水北 发表于 2018-7-5 08:58:42
试试一下自己编一套精简的公司名,由各种公司名按照某个方式省略得到。尽量确保左右两个dta的公司名,经过该精简方式后得到相同的公司名。在两个dta生成该精简公司名后,按照该公司名匹配。
ps:无论你采用何种语言,何种匹配技巧,都必须是你能充分理解的技巧,盲目调用别人的程序,当心吃不了兜着走。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-7 05:22