文本相似度计算是指充分利用计算机自动计算的能力,通过相似系数、相似距离等尺度来衡量文本之间的相似度,这里主要是指文本相似度计算的公式、算法或者是模型。文本相似度研究它只适合特定的领域,不同的领域考虑的因素,计算的原则都是不一样的,因此其算法也是不一样的。
1、明确应用目的:文本相似度研究主要是应用于那一模块,是要达到一个什么目的,因此在进行研究之前要进行调研,比如在文本文类,文本聚类领域,文本相似度研究主要是解决文本归类的问题;但是在数字图书馆领域,像中国知网数据库和万方数据的数字图书馆,其研究的功能主要是找出与当前文献内容类似的文献,这种提供相似文献的方法是通过计算文本之间的相似度来判定的。
2、要明确思想,循序渐进:分析其文本相似度研究的实际问题,找出本质规律,用数学语言进行描述,确定问题所涉及的一些变量,了解其变量之间的关系,根据问题提出假设,并将问题所涉及的变量用公式,图表,符号表示出来,用数学推导形成数据模型,在此基础上通过统计学跟数据分析来检验和修正模型,验证文本相似度。
3、选择一个适用的模型:文本相似度研究在多个领域都有应用,但是个不同的领域的文本相似度研究模型跟算法是不同的,要建立一个实用的数据模型,必须要把握研究领域的本质和规律,以便在此规律上面建立公式及模型,模型尽可能简单明了,便于操作及管理,模型最重要的是要经得起实践的检验,同时做到有代表性的推广。
4、确定一个相似度标准:两个文本之间是否相似是需要一个判断标准的,在判断中可以设定一个闽值来检验文本相似度计算结果,其结果应该也是一个量化的过程,可以假定如果计算结果大于或者等于闽值,则判定两个文本是相似的,少于则判定其不相似。由于闽值是一个数值形式,因此它的选择没有一个固定的模式,根据其标准灵活的选择,也可以根据其系统的需要进行精度设置,其精度要求越高,相应的闽值就越大。



雷达卡



京公网安备 11010802022788号







