楼主: 人工智能-AI
623 0

中文分词中未登录词分布规律及处理方法研究 [推广有奖]

  • 0关注
  • 10粉丝

会员

学术权威

71%

还不是VIP/贵宾

-

威望
0
论坛币
25 个
通用积分
0.0584
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
37770 点
帖子
3776
精华
0
在线时间
853 小时
注册时间
2017-9-5
最后登录
2018-4-11

楼主
人工智能-AI 在职认证  发表于 2018-1-25 19:20:00 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
摘要:本文以较大规模汉语语料库为基础,对中文分词中的未登录词分布规律进行考察,提出了词增长代价、语料效率等评价指标,借此来定量考察语料规模与未登录词之间的内在关系。调查结果显示,随着语料规模的不断扩大,未登录词的覆盖率也随之增大,但同时词增长代价也越来越大,而新增未登录词的词例数占新增总词例数的比例始终保持在一个较低水平,造成语料效率较低。基于该调查结果,提出针对“伪未登录词”使用定向收集语料的方法来扩充训练集,从而在不过分扩大语料规模的前提下,更有针对性地为未登录词识别提供语言知识,提高分词的准确率和领域适应性。本文在SIGHAN组织的第二届中文分词评测语料上进行实验,结果显示该方法能够有效提高分词准确率。

原文链接:http://www.cqvip.com//QK/81609X/201305/47401350.html

送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:处理方法 中文分词 方法研究 cqvip 结果显示 中文分词 机器学习 未登录词 伪未登录词

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 22:22