摘要:近年来词的分布式表示与组合模型在自然语言处理领域中取得了诸多突破性的成果。词的分布式表示使用实值向量对词进行建模,可以从无标记语料库学到词的语法和语义信息,而组合模型可以对词间或词内语义组合进行建模。在英文自然语言处理中,这些模型在语言模型、词性标注与文本分类等自然语言处理任务的性能超越了其他模型。受限于语言特性与语料资源,在相关中文任务中,这些模型并没有在性能上超越其他模型。 本文针对中文分布式表示与组合模型中相关研究缺乏大规模无标注语料的情况,构建了基于新闻的大规模无标记语料库用于训练词的表示向量,并在此基础上结合中文的字没有明确语义的特点,对词内和词间的语义组合进行建模。具体来说,本文主要进行了如下工作: (1)针对中文没有公开的大规模语料供字词表示学习的现状,本文构造了一个大规模新闻语料库。该语料库规模大约是此前中文相关研究中使用的语料库规模的25~9000倍。使用该语料库训练得到的词的分布式表示,在词语类比推理任务上超过了此前相关研究的最好结果。 (2)针对词向量不能很好表示未登录词和低频词的问题,本文结合中文的语言特性,提出了词的拆分模型和基于前馈神经网络的组合语义模型。词的拆分模型可以根据语料库中的统计信息对词的内在结构进行拆分,获得词的内部结构;而组合语义模型可以对词的内部结构间的语义组合进行建模。实验表明组合语义模型可以很好地对低频词和未登录词进行表示。 (3)构造卷积神经网络对词间语义组合进行建模,并在多个文本分类和情感分析数据集上进行验证。模型在文本分类任务上接近了FNLP自然语言处理系统的分类正确率,并在情感分析任务中超越了该系统。实验表明卷积
神经网络可以有效对词间语义组合进行建模,并验证了本文训练得到的词向量在文本分类和情感分析任务中的有效性。
原文链接:http://d.wanfangdata.com.cn/Thesis/Y3141354
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)