请选择 进入手机版 | 继续访问电脑版
楼主: 风中飘翼
3030 2

[技术讨论与投票] 文本相似度计算问题 [推广有奖]

  • 1关注
  • 0粉丝

污桐叔

本科生

7%

还不是VIP/贵宾

-

威望
0
论坛币
1397 个
通用积分
0
学术水平
0 点
热心指数
3 点
信用等级
0 点
经验
6564 点
帖子
59
精华
0
在线时间
89 小时
注册时间
2011-7-8
最后登录
2023-1-30

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
现在有一个数据库,里面存有大量项目,项目主体部分是文本,需要实现筛查项目是否有重复,因为这些主体是文本可能只有部分相似,不能用proc sort这种语句简单计算,查了一下好像余弦相似度、SimHash可以,小弟之前没做过关于文本挖掘问题,请问有大神做过类似问题么,该怎么入手。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:计算问题 相似度 HASH 文本挖掘 不能用

已有 1 人评分热心指数 收起 理由
eijuhz + 1 鼓励积极发帖讨论

总评分: 热心指数 + 1   查看全部评分

查了几天总算找到些方法,文章用的是Python做的,主要利用jieba分析和gensim里的TF-IDF,因为我个人Python比较菜还没完全搞懂,有类似问题的童鞋们可以去学习学习。原文链接http://www.cnblogs.com/liaojiafa/p/6287314.html

使用道具

Jessie97 发表于 2018-12-6 11:51:58 |显示全部楼层 |坛友微信交流群
小白去看咯~感谢分享!

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-28 17:28