楼主: 畅饮0
5689 11

[问答] 一道相对较难的用R语言实现较为精准的模糊匹配的题目,谢谢解答,有金币奖励 [推广有奖]

  • 0关注
  • 0粉丝

大专生

13%

还不是VIP/贵宾

-

威望
0
论坛币
376 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
796 点
帖子
26
精华
0
在线时间
25 小时
注册时间
2016-3-9
最后登录
2016-8-22

楼主
畅饮0 发表于 2016-8-11 14:23:41 |AI写论文
18论坛币
有数据源如下:
1.png

然后要模糊匹配成的结果如下:(把所有名字相近的企业聚到一起竖列排下去
2.png

找到相似的企业名字(但数据源中北京市中和街道这种地域名不能算进,因为按区域命名的企业太多)

这道题目很难,希望会的朋友能教授一下!谢谢

1.png (6.13 KB)

1.png

2.png (3.27 KB)

2.png

最佳答案

鸟儿找虫吃 查看完整内容

能想到的方法是截取字符串后分组聚合,亦或是用ETL算法相似匹配,可能有一定的失误率
关键词:金币奖励 R语言 企业名字 数据源 北京市 北京市 数据源 朋友 命名

回帖推荐

鸟儿找虫吃 发表于2楼  查看完整内容

能想到的方法是截取字符串后分组聚合,亦或是用ETL算法相似匹配,可能有一定的失误率

本帖被以下文库推荐

沙发
鸟儿找虫吃 发表于 2016-8-11 14:23:42
能想到的方法是截取字符串后分组聚合,亦或是用ETL算法相似匹配,可能有一定的失误率
已有 1 人评分论坛币 学术水平 收起 理由
jiangbeilu + 20 + 2 精彩帖子

总评分: 论坛币 + 20  学术水平 + 2   查看全部评分

藤椅
zerofung 学生认证  发表于 2016-8-11 16:08:14
你输入的是模糊匹配关键词是什么?还是说你就是要把所有名字相近的企业名全部聚在一起?

板凳
畅饮0 发表于 2016-8-11 16:46:18
zerofung 发表于 2016-8-11 16:08
你输入的是模糊匹配关键词是什么?还是说你就是要把所有名字相近的企业名全部聚在一起?
把所有名字相近的企业名全部聚在一起,按相近的企业名这么排下去
就是我贴的那个结果图片
2.png

报纸
zerofung 学生认证  发表于 2016-8-11 18:05:21
畅饮0 发表于 2016-8-11 16:46
把所有名字相近的企业名全部聚在一起,按相近的企业名这么排下去
就是我贴的那个结果图片
如果是这样,我觉得应该有针对字符串的聚类分析?但是我真的不懂。
提供一个比较投机取巧的思路,可能有帮助。
用正则gsub把“集团”“有限”“公司”“街道”等明显无关的词去掉,然后order,可能实现吗?但好像会丢失很多东西
如果有其他人解答了麻烦提醒我一下,我也想学习一下,谢谢。

地板
bbslover 在职认证  发表于 2016-8-13 04:54:57
看看文本挖掘等技术,相信能解决,把文字信息变为数值等策略,然后聚类等。

7
畅饮0 发表于 2016-8-20 09:18:17
鸟儿找虫吃 发表于 2016-8-11 14:23
能想到的方法是截取字符串后分组聚合,亦或是用ETL算法相似匹配,可能有一定的失误率
目前也只有这个方法,感谢

8
阁阁嫁到 发表于 2020-1-7 11:23:41 来自手机
畅饮0 发表于 2016-8-11 14:23
有数据源如下:
楼主楼主,不知道你还在不在,我现在遇到同样的问题了,还想问一下,您解决了吗

9
BG4IMP 发表于 2022-12-13 21:05:07
我编过R的代码,思路就是把公司的名字拆开,逐字比较,找到最接近的那个
速度不快,做几千个公司名字,大概需要20多分钟
也许是我编的算法效率不行
看看有谁有更好的方法吧,也学习一下

10
zhjx19 发表于 2022-12-14 00:00:20
BG4IMP 发表于 2022-12-13 21:05
我编过R的代码,思路就是把公司的名字拆开,逐字比较,找到最接近的那个
速度不快,做几千个公司名字,大 ...
stringdist包可以计算字符串距离,选用有最长共同子串距离:
  1. library(stringdist)
复制代码


QQ截图20221213235856.jpg


已有 1 人评分论坛币 收起 理由
cheetahfly + 10 热心帮助其他会员

总评分: 论坛币 + 10   查看全部评分

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-30 08:46