我用Rwordseg包将中文语句分词后,形成的词汇都如 ‘你好’ ‘谢谢’ 这类看着很正常的词汇。
但是用tm包中的Corpus函数建立语料库后,有些词发生了合并,并且在是使用 ‘\n’ 进行的合并。
例如:“销售\n产品”
这个是为什么呢?该如何解决呢?用tm包处理中文的词汇,一定会这样么?
楼主: tiantanshu
|
3000
2
[问答] 用tm包处理中文遇到问题 |
博士生 60%
-
|
| ||
| ||
京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明 免责及隐私声明