做topicmodel的时候,生成的DTM这个矩阵总是乱码……到dtm前一步都是正常的,wordcorpus并不乱码。
已经转换成utf8了还是木有解决。。。求助!
代码如下:
#将纯文档文件转换为Corpus对象
resutf8<-toUTF8(res)
wordcorpus <- Corpus(VectorSource(resutf8))
#生成DTM
controllist<-list(wordLengths=c(2,Inf),removeNumbers=TRUE,weighting=weightTf,removePunctuation = TRUE,stopwords = stopwordsCN())
dtm <- DocumentTermMatrix(wordcorpus,control = controllist)