楼主: 论文库
689 0

面向非平衡数据的若干自然语言处理问题研究 [推广有奖]

  • 0关注
  • 13粉丝

会员

学术权威

74%

还不是VIP/贵宾

-

威望
0
论坛币
5 个
通用积分
0.0336
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
38440 点
帖子
3839
精华
0
在线时间
836 小时
注册时间
2017-9-5
最后登录
2018-4-9

楼主
论文库 在职认证  发表于 2017-9-29 06:20:04 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
摘要:统计学习方法由于可以从语料库中自动的获取语言统计知识以用于构建统计模型,且在鲁棒性、准确性上均有一定的优势,因而在自然语言处理领域中得到了广泛的应用。然而,很多自然语言处理问题中不同类别的样本在数量上具有很大的差别,比如在文献关键词自动识别问题中,一篇文献中的词语数量(正负类样本总量)可能会达到数千、数万,但其关键词(正类样本)数量往往不超过十个。大量研究表明不平衡的数据分布会对统计学习的效果造成严重的负面影响,因而有必要设计有针对性的不平衡数据分类算法,提升其在这些自然语言处理现实问题中的应用效果。以此为出发点,本文对自然语言处理领域中的多个具有不平衡数据分布的具体问题开展研究,完成的主要工作如下:  1.提出了面向非平衡数据的英文缩略词/解释识别方法。深入探析了英文缩略词/解释识别问题中的不平衡数据产生的根源、分布的特征、给传统序列学习方法带来的困难;回顾了目前已有的各类序列学习算法,分析了它们在处理英文缩略词/解释识别这类具有不平衡数据的序列学习问题时可能存在的不足;以此为出发点提出了适用于不平衡序列数据的双层条件随机场算法,系统给出了图模型表达、形式化定义、以及训练算法和预测算法。  2.提出了面向非平衡数据的文献关键词自动抽取方法。针对文档关键词自动抽取等多视图学习问题中的类别分布不平衡现象,提出了协同欠抽样学习方法,该方法能够充分利用数据的多个视图中蕴藏的信息,在学习过程中通过迭代抽样的形式不断降低数据集的类别不平衡程度,提升关键词自动抽取的效果。  3.提出了面向非平衡数据的自动文摘方法。针对文献中的摘要句子相比于普通句子要较为稀疏,在评估文摘分类模型时采用ROUGE等特殊的评估指标的特点,提出了一种高效的基于叠加式学习的ROUGE指标直接优化算法,以解决自动文摘中的非平衡数据分类问题。在叠加式学习框架下对已有的自动文摘模型进行集成,在集成过程中以ROUGE指标为优化目标,避免了不平衡数据分布对传统的以准确率为优化目标的统计学习方法的负面影响,提升了自动文摘的效果。

原文链接:http://d.wanfangdata.com.cn/Thesis/D302331

送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:非平衡数据 问题研究 自然语言 语言处理 非平衡 统计学习方法 不平衡数据 分类算法 自然语言处理

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-5 13:46