楼主: mcyberlove
3526 0

[学术治理与讨论] 文本相似度的计算原则 [推广有奖]

  • 0关注
  • 12粉丝

已卖:2070份资源

讲师

64%

还不是VIP/贵宾

-

TA的文库  其他...

毕业论文修改指导

威望
0
论坛币
2971 个
通用积分
4.5048
学术水平
31 点
热心指数
30 点
信用等级
21 点
经验
11006 点
帖子
320
精华
0
在线时间
422 小时
注册时间
2009-11-2
最后登录
2021-1-30

楼主
mcyberlove 发表于 2016-4-6 08:41:31 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

  文本相似度计算是指充分利用计算机自动计算的能力,通过相似系数、相似距离等尺度来衡量文本之间的相似度,这里主要是指文本相似度计算的公式、算法或者是模型。文本相似度研究它只适合特定的领域,不同的领域考虑的因素,计算的原则都是不一样的,因此其算法也是不一样的。

    1、明确应用目的:文本相似度研究主要是应用于那一模块,是要达到一个什么目的,因此在进行研究之前要进行调研,比如在文本文类,文本聚类领域,文本相似度研究主要是解决文本归类的问题;但是在数字图书馆领域,像中国知网数据库和万方数据的数字图书馆,其研究的功能主要是找出与当前文献内容类似的文献,这种提供相似文献的方法是通过计算文本之间的相似度来判定的。

    2、要明确思想,循序渐进:分析其文本相似度研究的实际问题,找出本质规律,用数学语言进行描述,确定问题所涉及的一些变量,了解其变量之间的关系,根据问题提出假设,并将问题所涉及的变量用公式,图表,符号表示出来,用数学推导形成数据模型,在此基础上通过统计学跟数据分析来检验和修正模型,验证文本相似度。

    3、选择一个适用的模型:文本相似度研究在多个领域都有应用,但是个不同的领域的文本相似度研究模型跟算法是不同的,要建立一个实用的数据模型,必须要把握研究领域的本质和规律,以便在此规律上面建立公式及模型,模型尽可能简单明了,便于操作及管理,模型最重要的是要经得起实践的检验,同时做到有代表性的推广。

    4、确定一个相似度标准:两个文本之间是否相似是需要一个判断标准的,在判断中可以设定一个闽值来检验文本相似度计算结果,其结果应该也是一个量化的过程,可以假定如果计算结果大于或者等于闽值,则判定两个文本是相似的,少于则判定其不相似。由于闽值是一个数值形式,因此它的选择没有一个固定的模式,根据其标准灵活的选择,也可以根据其系统的需要进行精度设置,其精度要求越高,相应的闽值就越大。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:相似度 数字图书馆 知网数据库 数据模型 数字图书 论文查重 论文检测 论文写作 论文抄袭 自助检测

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注ddjd
拉您入交流群
GMT+8, 2025-12-29 07:13