[讨论交流] [R资源]基于R语言下的文本挖掘一些资料 [推广有奖]

81楼

风雨兼程12 发表于 2016-3-10 17:37:59

帖子很好，只是有个问题想请教一下，第二个pdf文档中，我自己在做实验的时候
txt<-Corpus(VectorSource(text))
txt<-tm_map(txt,removeNumbers)#去除数字
txt<-tm_map(txt,stripWhitespace)#去除多余空格
txt<-tm_map(txt,removePunctuation)#去除标点符号
txt<-tm_map(txt,removeWords, stopwords("english"))#将英文中的停词删掉
txt<-tm_map(txt,PlainTextDocument)#去掉空文件
前面这部分都没有问题，文档结果显示的是这个样子
<<VCorpus>>
Metadata:  corpus specific: 0, document level (indexed): 0
Content:  documents: 400
里面有400个文件，这个没有问题，可是为什么分词之后
txt<-segmentCN(as.character(txt))#将语料库中的中文时行分词
txt<-Corpus(VectorSource(txt))#出现了问题
现在形成的语料库显示的是
<<VCorpus>>
Metadata:  corpus specific: 0, document level (indexed): 0
Content:  documents: 3
只有3个文件，这是什么情况？
其实我有400个文档，我想形成的文档词条矩阵应该是400行的，而他只有3个文件，最后形成的文档也应该是3行的，这个怎么回事？跪求大神指导！！！