楼主: 2794994234
884 1

[程序分享] 灵玖大数据搜索应用:汉语分词分词系统 [推广有奖]

  • 1关注
  • 1粉丝

禁止发言

硕士生

49%

还不是VIP/贵宾

-

威望
0
论坛币
21 个
通用积分
0
学术水平
0 点
热心指数
3 点
信用等级
0 点
经验
2129 点
帖子
78
精华
0
在线时间
51 小时
注册时间
2016-5-18
最后登录
2019-1-4

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

  汉语分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。

  汉语分词组件能对汉语语言进行拆分处理,是中文信息处理必备的核心部件。它综合了各家所长,采用条件随机场(Conditional Random Field,简称CRF)模型,具备准确率高、速度快、可适应性强等优势。特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。

  词性标注能对汉语语言进行词性的自动标注,它能够真正理解中文,自动根据语言环境将词语诸如“建设”标注为“名词”或“动词”。

  汉语分词是基于多层隐马模型研制出的汉语词法分析系统,主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。目前已经升级到了3.0,分词精度 98.45%,各种词典数据压缩后不到3M。是当前世界上最好的汉语词法分析器。

  分词组件函数流程图:

  

图片1.png


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据搜索 大数据 conditional condition dition 汉语

沙发
daodaory 发表于 2016-8-16 15:42:30 |只看作者 |坛友微信交流群
东西呢 ?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-19 11:22