我在做中文文本的分类代码如下:words<-as.character(csv$keywords)
words<-strsplit(words,',')
corpus = Corpus(VectorSource(words))
(dtm <- DocumentTermMatrix(corpus))
之后使用dtm$dimnames查看发现其中出现了类似“最新研究\n科学家发现\n摄影”这个几个词组合在一起的情况,为什么会出现这样的情况,还有我该如何做才能够避免这类情况发生?
|
楼主: tzy3169
|
7989
3
[问答] 如何使用DocumentTermMatrix函数 |
|
硕士生 31%
-
|
| ||
|
|
加好友,备注cda京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明


