指标说明:
使用三类方法计算文本相似性指标:TF-IDF方法,LDA方法和WinGo方法。
上述三种方法分别为使用TF-IDF模型,LDA模型以及Word Embedding神经网络语言模型与TF-IDF相结合的自然语言处理技术进行计算的文本相似性指标计算方法。
TF-IDF是一种用以评估字或词对于文件集或语料库中文件重要程度的统计方法;LDA(Latent Dirichlet Allocation)模型是一种描述文档-主题-词之间关系的概率生成模型,LDA能通过主题建模在一定层面上捕捉文档的语义信息。Word Embedding则是根据上下文语义信息将词汇表示成多维向量的神经网络语言模型。通过Word Embedding训练得到词向量,不仅可以定量的研究文本之间的关系,捕获文本语义层面的信息,而且考虑了单个字或词对整个文本的影响。
使用TF-IDF方法计算文本相似性指标时,主要构建过程如下:1)对文本进行分词;2)对分词结果进行清洗;3)计算文本中词的TF-IDF值;4)采用使用最广泛的余弦函数作为文本相似性的度量。度量值越大,表示文本之间的相似程度越高;反之,则相似程度越低。
LDA文本相似性指标构建过程如下:1)对文本进行分词;2)对分词结果进行清洗;3)训练LDA模型,选择最优主题数,得到每个文档对应的文档-主题分布;4)采用使用最广泛的余弦函数作为文本相似性的度量。度量值越大,表示文本之间的相似程度越高;反之,则相似程度越低。
WinGo文本相似性指标构建过程如下:1)对文本进行分词;2)对分词结果进行清洗;3)计算文本中词的TF-IDF值;4)利用Word Embedding训练词向量; 5)将得到的词向量进行TF-IDF加权得到文本向量。6)采用使用最广泛的余弦函数作为文本相似性的度量。度量值越大,表示文本之间的相似程度越高;反之,则相似程度越低。
样本数据:


雷达卡


京公网安备 11010802022788号







