楼主: 人工智能-AI
899 0

分布式表示与组合模型在中文自然语言处理中的应用 [推广有奖]

  • 0关注
  • 10粉丝

会员

学术权威

71%

还不是VIP/贵宾

-

威望
0
论坛币
25 个
通用积分
0.0584
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
37770 点
帖子
3776
精华
0
在线时间
853 小时
注册时间
2017-9-5
最后登录
2018-4-11

楼主
人工智能-AI 在职认证  发表于 2017-9-29 04:20:06 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
摘要:近年来词的分布式表示与组合模型在自然语言处理领域中取得了诸多突破性的成果。词的分布式表示使用实值向量对词进行建模,可以从无标记语料库学到词的语法和语义信息,而组合模型可以对词间或词内语义组合进行建模。在英文自然语言处理中,这些模型在语言模型、词性标注与文本分类等自然语言处理任务的性能超越了其他模型。受限于语言特性与语料资源,在相关中文任务中,这些模型并没有在性能上超越其他模型。  本文针对中文分布式表示与组合模型中相关研究缺乏大规模无标注语料的情况,构建了基于新闻的大规模无标记语料库用于训练词的表示向量,并在此基础上结合中文的字没有明确语义的特点,对词内和词间的语义组合进行建模。具体来说,本文主要进行了如下工作:  (1)针对中文没有公开的大规模语料供字词表示学习的现状,本文构造了一个大规模新闻语料库。该语料库规模大约是此前中文相关研究中使用的语料库规模的25~9000倍。使用该语料库训练得到的词的分布式表示,在词语类比推理任务上超过了此前相关研究的最好结果。  (2)针对词向量不能很好表示未登录词和低频词的问题,本文结合中文的语言特性,提出了词的拆分模型和基于前馈神经网络的组合语义模型。词的拆分模型可以根据语料库中的统计信息对词的内在结构进行拆分,获得词的内部结构;而组合语义模型可以对词的内部结构间的语义组合进行建模。实验表明组合语义模型可以很好地对低频词和未登录词进行表示。  (3)构造卷积神经网络对词间语义组合进行建模,并在多个文本分类和情感分析数据集上进行验证。模型在文本分类任务上接近了FNLP自然语言处理系统的分类正确率,并在情感分析任务中超越了该系统。实验表明卷积神经网络可以有效对词间语义组合进行建模,并验证了本文训练得到的词向量在文本分类和情感分析任务中的有效性。

原文链接:http://d.wanfangdata.com.cn/Thesis/Y3141354

送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:语言处理 组合模型 自然语言 分布式 wanfangdata 中文自然语言处理 分布式表示 组合模型 卷积神经网络

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-28 13:49