楼主: a智多星
666 0

中文自动分词系统的研究与实现 [推广有奖]

  • 0关注
  • 14粉丝

会员

学术权威

72%

还不是VIP/贵宾

-

威望
0
论坛币
15 个
通用积分
1.1414
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
38160 点
帖子
3814
精华
0
在线时间
830 小时
注册时间
2017-9-5
最后登录
2018-4-11

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
摘要:所谓中文分词,就是将中文语句中的词汇切分出来的过程。由于汉语的书写习惯,汉语语句中词与词之间的标志是隐含的,英文的单词与单词之间有空格,所以不存在分词问题。而中文的每一句中,词与词之间是没有空格的,因而必须采用某种技术将其分开。中文文本自动分词算法从20世纪80年代以来就一直是一个研究热点,由于中文语言的复杂性使之一直处于发展阶段。   近年来,国内外众多学者在中文分词领域做了大量研究工作,取得了一定的研究成果。目前中文分词算法各有优劣,很难绝对地比出高低,所以,中文分词的算法更多时候需要同实际的应用相结合。到目前为止,中文分词包括三类算法:1)基于字符串匹配的分词;2)基于理解的分词;3)基于统计的分词。这些算法各有优劣,还无法证明哪一种方法更准确,它们都有自己技术上特点和用途上的区别。其中基于理解的分词研究还处于未成熟阶段。   分词技术作为自然语言处理的基础环节,同时也是关键环节之一,它的质量好坏直接影响到后续处理步骤的效果。中文分词工作看似细微,但作为计算机自然语言处理的第一步,它的关键作用是不容忽视的。如今中文分词己成为自然语言处理的研究热点与难点。   本文通过对多种中文分词算法进行比较、研究,改进了传统机械分词中的词典结构,提出了基于词库和统计的中文分词算法,从而提高了分词的正确率和效率。该算法将基于统计的无词典分词算法与机械分词方法相结合,改善了机械分词新词识别能力差的问题。由于分词过程主要还是基于机械分词,所以在正确率提高的情况下,仍然能够快速分地分词,随后在本文中所提出算法的基础上,设计开发了一套中文自动分词系统,该系统不仅可以完成对汉语的分词工作,还能比较各种算法的特点,有利于分析和研究。系统中所涉及到的算法也能够很好地为其它应用系统服务。   本论文的主要叙述过程如下:   首先,介绍了中文分词的概念、应用领域以及面临的难题,列举了现在常用的中文分词算法,并进行了简单的比较。   其次,在现有算法基础上,结合了传统机械分词和基于统计方法分词各自的优点,提出了基于词库和统计相结合的中文分词算法。在保证分词速度的同时,也提高了结果的准确率。   再次,在基于词典和统计的中文分词算法的基础上,设计并运用Java Web技术实现了中文分词系统。该系统不仅完成了中文分词工作,还能够比较不同算法之间的分词速度,可以验证本文算法的优越性。   最后,对论文各项工作进行了总结,并展望了需要进一步改进的工作。

原文链接:http://d.wanfangdata.com.cn/Thesis/Y1608047

送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:wanfangdata wanfang thesis 字符串匹配 中文分词 中文分词 词汇切分 自然语言处理 词典结构

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-18 03:23