人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › python论坛 › 灵玖大数据搜索应用：汉语分词分词系统

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

返回列表

发帖

楼主: 2794994234

884 1

[程序分享] 灵玖大数据搜索应用：汉语分词分词系统 [推广有奖]

1关注
1粉丝

禁止发言

硕士生

49%

还不是VIP/贵宾

威望: 0 级
论坛币: 21 个
通用积分: 0
学术水平: 0 点
热心指数: 3 点
信用等级: 0 点
经验: 2129 点
帖子: 78
精华: 0
在线时间: 51 小时
注册时间: 2016-5-18
最后登录: 2019-1-4

楼主

2794994234 发表于 2016-8-16 15:28:23 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

　　汉语分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂的多、困难的多。

　　汉语分词组件能对汉语语言进行拆分处理，是中文信息处理必备的核心部件。它综合了各家所长，采用条件随机场(Conditional Random Field,简称CRF)模型，具备准确率高、速度快、可适应性强等优势。特色功能包括：切分粒度可调整，融合20余部行业专有词典，支持用户自定义词典等。

　　词性标注能对汉语语言进行词性的自动标注，它能够真正理解中文，自动根据语言环境将词语诸如“建设”标注为“名词”或“动词”。

　　汉语分词是基于多层隐马模型研制出的汉语词法分析系统，主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。目前已经升级到了3.0，分词精度 98.45%，各种词典数据压缩后不到3M。是当前世界上最好的汉语词法分析器。

　　分词组件函数流程图：

图片1.png

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：数据搜索大数据 conditional condition dition 汉语

[程序分享] 灵玖大数据搜索应用：汉语分词分词系统 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[程序分享] 灵玖大数据搜索应用：汉语分词分词系统 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群