人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛 › 一道相对较难的用R语言实现较为精准的模糊匹配的题目，谢 ...

返回列表

12 下一页

发帖

楼主: 畅饮0

5814 11

[问答] 一道相对较难的用R语言实现较为精准的模糊匹配的题目，谢谢解答，有金币奖励 [推广有奖]

0关注
0粉丝

大专生

13%

还不是VIP/贵宾

威望: 0 级
论坛币: 376 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 796 点
帖子: 26
精华: 0
在线时间: 25 小时
注册时间: 2016-3-9
最后登录: 2016-8-22

楼主

畅饮0 发表于 2016-8-11 14:23:41 |AI写论文

18论坛币

有数据源如下：

然后要模糊匹配成的结果如下:（把所有名字相近的企业聚到一起竖列排下去）

找到相似的企业名字（但数据源中北京市中和街道这种地域名不能算进，因为按区域命名的企业太多）

这道题目很难，希望会的朋友能教授一下！谢谢

1.png (6.13 KB)

2.png (3.27 KB)

最佳答案

鸟儿找虫吃查看完整内容

能想到的方法是截取字符串后分组聚合，亦或是用ETL算法相似匹配，可能有一定的失误率

分享0 收藏0 回帖

关键词：金币奖励 R语言企业名字数据源北京市北京市数据源朋友命名

回帖推荐

鸟儿找虫吃发表于2楼查看完整内容

能想到的方法是截取字符串后分组聚合，亦或是用ETL算法相似匹配，可能有一定的失误率

本帖被以下文库推荐

· 数据处理|主题: 127, 订阅: 19

沙发

鸟儿找虫吃 发表于 2016-8-11 14:23:42

能想到的方法是截取字符串后分组聚合，亦或是用ETL算法相似匹配，可能有一定的失误率

已有 1 人评分	论坛币	学术水平	收起理由
jiangbeilu	+ 20	+ 2	精彩帖子

总评分: 论坛币 + 20 学术水平 + 2 查看全部评分

藤椅

zerofung

发表于 2016-8-11 16:08:14

你输入的是模糊匹配关键词是什么？还是说你就是要把所有名字相近的企业名全部聚在一起？

板凳

畅饮0 发表于 2016-8-11 16:46:18

zerofung 发表于 2016-8-11 16:08
你输入的是模糊匹配关键词是什么？还是说你就是要把所有名字相近的企业名全部聚在一起？

把所有名字相近的企业名全部聚在一起，按相近的企业名这么排下去
就是我贴的那个结果图片

报纸

zerofung

发表于 2016-8-11 18:05:21

畅饮0 发表于 2016-8-11 16:46
把所有名字相近的企业名全部聚在一起，按相近的企业名这么排下去
就是我贴的那个结果图片

如果是这样，我觉得应该有针对字符串的聚类分析？但是我真的不懂。
提供一个比较投机取巧的思路，可能有帮助。
用正则gsub把“集团”“有限”“公司”“街道”等明显无关的词去掉，然后order，可能实现吗？但好像会丢失很多东西
如果有其他人解答了麻烦提醒我一下，我也想学习一下，谢谢。

地板

bbslover

发表于 2016-8-13 04:54:57

看看文本挖掘等技术，相信能解决，把文字信息变为数值等策略，然后聚类等。

7楼

畅饮0 发表于 2016-8-20 09:18:17

鸟儿找虫吃发表于 2016-8-11 14:23
能想到的方法是截取字符串后分组聚合，亦或是用ETL算法相似匹配，可能有一定的失误率

目前也只有这个方法，感谢

8楼

阁阁嫁到 发表于 2020-1-7 11:23:41 来自手机

畅饮0 发表于 2016-8-11 14:23
有数据源如下：

楼主楼主，不知道你还在不在，我现在遇到同样的问题了，还想问一下，您解决了吗

9楼

BG4IMP 发表于 2022-12-13 21:05:07

我编过R的代码，思路就是把公司的名字拆开，逐字比较，找到最接近的那个
速度不快，做几千个公司名字，大概需要20多分钟
也许是我编的算法效率不行
看看有谁有更好的方法吧，也学习一下

10楼

zhjx19 发表于 2022-12-14 00:00:20

BG4IMP 发表于 2022-12-13 21:05
我编过R的代码，思路就是把公司的名字拆开，逐字比较，找到最接近的那个
速度不快，做几千个公司名字，大 ...

stringdist包可以计算字符串距离，选用有最长共同子串距离：

library(stringdist)

复制代码

已有 1 人评分	论坛币	收起理由
cheetahfly	+ 10	热心帮助其他会员

总评分: 论坛币 + 10 查看全部评分

返回列表

12 下一页

发帖

本版微信群

加好友,备注cda
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[问答] 一道相对较难的用R语言实现较为精准的模糊匹配的题目，谢谢解答，有金币奖励 [推广有奖]

最佳答案

相关帖子

回帖推荐

本帖被以下文库推荐

浏览过的帖子

浏览过的版块

本版微信群