我用Rwordseg包将中文语句分词后,形成的词汇都如 ‘你好’ ‘谢谢’ 这类看着很正常的词汇。
但是用tm包中的Corpus函数建立语料库后,有些词发生了合并,并且在是使用 ‘\n’ 进行的合并。
例如:“销售\n产品”
这个是为什么呢?该如何解决呢?用tm包处理中文的词汇,一定会这样么?
|
楼主: tiantanshu
|
3352
2
[问答] 用tm包处理中文遇到问题 |
|
博士生 60%
-
|
| ||
|
|
| ||
加好友,备注cda京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明


