汉语分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。
汉语分词组件能对汉语语言进行拆分处理,是中文信息处理必备的核心部件。它综合了各家所长,采用条件随机场(Conditional Random Field,简称CRF)模型,具备准确率高、速度快、可适应性强等优势。特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。
词性标注能对汉语语言进行词性的自动标注,它能够真正理解中文,自动根据语言环境将词语诸如“建设”标注为“名词”或“动词”。
汉语分词是基于多层隐马模型研制出的汉语词法分析系统,主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。目前已经升级到了3.0,分词精度 98.45%,各种词典数据压缩后不到3M。是当前世界上最好的汉语词法分析器。
分词组件函数流程图: