pennyr617 发表于 2019-1-7 16:24 
那建立语料库后每个文档的格式为一个向量格式,如下图所示,这样有没有问题?建立语料库的代码为ovid3
你这个情况我不确认接下来会发生什么但是跟我不太一样,给你一个例子吧
- data <- c("今天天气很好", "明天不用上班")
- tmdata <- segmentCN(data, returnType = "tm")
- cpdata <- VCorpus(VectorSource(tmdata), readerControl = list(language = "zh"))
- ctrl <- list(weighting = weightTf, wordLengths = c(1, Inf))
- dtm <- DocumentTermMatrix(cpdata, control = ctrl)
复制代码中文用tm的基本思想就是通过分词在文本中加入了很多空格,然后中文就可以跟英文一样的处理方式了
所以分词后不能写成
- > segmentCN("今天天气很好")
- [1] "今天" "天气" "很" "好"
复制代码而应该是
- > segmentCN("今天天气很好", returnType = "tm")
- [1] "今天 天气 很 好"
复制代码