人大经济论坛 › 论坛 › 数据科学与人工智能 › 人工智能 › 人工智能论文版 › 中文自动分词系统的研究与实现

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: a智多星

666 0

中文自动分词系统的研究与实现 [推广有奖]

0关注
14粉丝

会员

学术权威

72%

还不是VIP/贵宾

威望: 0 级
论坛币: 15 个
通用积分: 1.1414
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 38160 点
帖子: 3814
精华: 0
在线时间: 830 小时
注册时间: 2017-9-5
最后登录: 2018-4-11

楼主

a智多星

发表于 2017-9-29 08:20:05 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

摘要：所谓中文分词，就是将中文语句中的词汇切分出来的过程。由于汉语的书写习惯，汉语语句中词与词之间的标志是隐含的，英文的单词与单词之间有空格，所以不存在分词问题。而中文的每一句中，词与词之间是没有空格的，因而必须采用某种技术将其分开。中文文本自动分词算法从20世纪80年代以来就一直是一个研究热点，由于中文语言的复杂性使之一直处于发展阶段。　　近年来，国内外众多学者在中文分词领域做了大量研究工作，取得了一定的研究成果。目前中文分词算法各有优劣，很难绝对地比出高低，所以，中文分词的算法更多时候需要同实际的应用相结合。到目前为止，中文分词包括三类算法：1)基于字符串匹配的分词；2)基于理解的分词；3)基于统计的分词。这些算法各有优劣，还无法证明哪一种方法更准确，它们都有自己技术上特点和用途上的区别。其中基于理解的分词研究还处于未成熟阶段。　　分词技术作为自然语言处理的基础环节，同时也是关键环节之一，它的质量好坏直接影响到后续处理步骤的效果。中文分词工作看似细微，但作为计算机自然语言处理的第一步，它的关键作用是不容忽视的。如今中文分词己成为自然语言处理的研究热点与难点。　　本文通过对多种中文分词算法进行比较、研究，改进了传统机械分词中的词典结构，提出了基于词库和统计的中文分词算法，从而提高了分词的正确率和效率。该算法将基于统计的无词典分词算法与机械分词方法相结合，改善了机械分词新词识别能力差的问题。由于分词过程主要还是基于机械分词，所以在正确率提高的情况下，仍然能够快速分地分词，随后在本文中所提出算法的基础上，设计开发了一套中文自动分词系统，该系统不仅可以完成对汉语的分词工作，还能比较各种算法的特点，有利于分析和研究。系统中所涉及到的算法也能够很好地为其它应用系统服务。　　本论文的主要叙述过程如下：　　首先，介绍了中文分词的概念、应用领域以及面临的难题，列举了现在常用的中文分词算法，并进行了简单的比较。　　其次，在现有算法基础上，结合了传统机械分词和基于统计方法分词各自的优点，提出了基于词库和统计相结合的中文分词算法。在保证分词速度的同时，也提高了结果的准确率。　　再次，在基于词典和统计的中文分词算法的基础上，设计并运用Java Web技术实现了中文分词系统。该系统不仅完成了中文分词工作，还能够比较不同算法之间的分词速度，可以验证本文算法的优越性。　　最后，对论文各项工作进行了总结，并展望了需要进一步改进的工作。

原文链接:http://d.wanfangdata.com.cn/Thesis/Y1608047

送人玫瑰，手留余香~如您已下载到该资源，可在回帖当中上传与大家共享，欢迎来CDA社区交流学习。（仅供学术交流用。）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：wanfangdata wanfang thesis 字符串匹配中文分词中文分词词汇切分自然语言处理词典结构

中文自动分词系统的研究与实现 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

中文自动分词系统的研究与实现 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群