摘要:自然语言处理是计算机科学领域与
人工智能领域中的一个重要研究方向,它主要研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。由于自然语言处理要涉及到纷繁复杂的文字以及需要大量的语料库做研究基础,所以至今仍存在许多技术难题,如语言行为与计划、语义分析、词义的消歧以及句法的模糊性等。 语言行为与计划包括人类的语言和语言要表达的意思以及理解者做出的反应,其难点在于如何理解语言要表达的意思,并做出一个合理的反应,这也是句子相似度中亟待解决的难题。目前,已存在的句子相似度计算方法已经取得了不错的效果,但这些方法几乎都没有对句子的主成分进行分析,导致句子相似度计算结果不够准确。 本文首先对句子进行了分词以及句法分析处理,在此基础上对句子的成分进行了详细的分析,并对不同的成分赋予了不同的权重值。同时在句子相似度的计算过程中还应用了最优二叉树带权路径长度计算方法。最后将本文提出的计算句子相似度的方法应用到信息检索中,提高了信息检索中的查准率。实验结果表明,本文所采用的方法与其他方法相比更加合理有效。 词语的语义相关度计算是语义分析的一部分,主要是计算不同词语间在人类思维中可能存在的关联程度。词语语义相关度计算方法有多种,其中以网络百科全书为基础的计算方法越来越受到人们的青睐。但这些方法在对百科词条内容进行分析时没有对内容进行全面的考虑,所以可能使结果存在一定的偏差和错误。 以百度百科为数据集,将每两个词条组成词条对,分析每个词条对页面上的不同内容和内链。计算词条页面中各个部分之间的相关度,并对相关度赋予不同的权重。词条之间的相关度由各个相关度组合而成。建立相关词条列表,并将该列表应用到语义搜索系统中的问句扩展。实验结果表明本文的计算方法更接近人们的思维模式。
原文链接:http://d.wanfangdata.com.cn/Thesis/Y2577100
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)