楼主: DL-er
1369 0

半监督算法在自然语言处理中应用的研究 [推广有奖]

  • 0关注
  • 6粉丝

会员

学术权威

74%

还不是VIP/贵宾

-

威望
0
论坛币
15 个
通用积分
1.0435
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
38540 点
帖子
3853
精华
0
在线时间
813 小时
注册时间
2017-9-5
最后登录
2018-6-30

楼主
DL-er 在职认证  发表于 2017-9-29 08:00:09 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
摘要:自然语言处理技术的发展给人们生活带来了很多方便。有监督学习方法在自然语言处理领域取得了巨大成功,然而由于其依赖大量的标注语料,很难扩展到标注语料缺乏的情况。自然语言处理领域有很多任务缺乏标注语料,但是未标注语料却很容易获得,此时,半监督学习是一个好的选择。半监督学习主要研究内容是如何同时利用标记数据和无标记数据,获得比仅能利用标记数据的有监督学习方法更好的性能。目前,半监督学习受限于高昂的计算代价,不能很好的应用与规模较大的自然语言处理任务中。  本文主要研究了如何将基于主动学习(active learning)以及基于图(graph based)的半监督机器学习算法更好的应用于自然语言处理任务中。首先,本文提出了一种基于主动学习策略的半监督支持向量机框架,使用平均随机梯度下降(ASGD)方法做模型求解,并重点研究了合理的主动学习策略,将时间和空间复杂度都降到了线性。在文本分类和情感分类的实验结果证明我们的方法能够和其他主流的半监督支持向量机达到相当的效果,并且大幅的提升了训练速度。同时,该学习框架也可以推广到其他半监督学习模型中。然后,本文研究了基于图的半监督算法在词性标注上的应用,将基于锚图的标记传播算法应用到了词性标注任务中,重点研究了自然语言处理中数据稀疏的解决办法,探讨了词向量的使用方式。实验结果表明基于图的半监督算法结合词向量的上下文特征表示方式可以有效提高词性标注准确率。本文又对上述两种机制的算法进行了深入的分析比较,从理论和实验上分析了两种方法的原理,基本假设,时间空间复杂度和适合的特征,并给出了面对实际问题时如何选择两种方法的建议。最后,本文将基于图的半监督算法应用于跨语言词性标注任务中,解决未登录词的词性估计问题,实验结果证明,相比于传统的标记传播算法,基于锚图的标记传播算法结合词向量特征的表示方式可以更有效的利用语料的信息,提高跨语言词性标注的准确率。

原文链接:http://d.wanfangdata.com.cn/Thesis/D593491

送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:语言处理 自然语言 wanfangdata Learning wanfang 半监督算法 自然语言处理 支持向量机 跨语言词性标注

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-30 17:51