楼主: fantuanxiaot
13678 86

[讨论交流] [R资源]基于R语言下的文本挖掘一些资料   [推广有奖]

81
风雨兼程12 发表于 2016-3-10 17:37:59
帖子很好,只是有个问题想请教一下,第二个pdf文档中,我自己在做实验的时候
txt<-Corpus(VectorSource(text))
txt<-tm_map(txt,removeNumbers)#去除数字
txt<-tm_map(txt,stripWhitespace)#去除多余空格
txt<-tm_map(txt,removePunctuation)#去除标点符号
txt<-tm_map(txt,removeWords, stopwords("english"))#将英文中的停词删掉
txt<-tm_map(txt,PlainTextDocument)#去掉空文件
前面这部分都没有问题,文档结果显示的是这个样子
<<VCorpus>>
Metadata:  corpus specific: 0, document level (indexed): 0
Content:  documents: 400
里面有400个文件,这个没有问题,可是为什么分词之后
txt<-segmentCN(as.character(txt))#将语料库中的中文时行分词
txt<-Corpus(VectorSource(txt))#出现了问题
现在形成的语料库显示的是
<<VCorpus>>
Metadata:  corpus specific: 0, document level (indexed): 0
Content:  documents: 3
只有3个文件,这是什么情况?
其实我有400个文档,我想形成的文档词条矩阵应该是400行的,而他只有3个文件,最后形成的文档也应该是3行的,这个怎么回事?跪求大神指导!!!

82
风雨兼程12 发表于 2016-3-12 17:21:31
请问一下  大侠  这里面第二个文档是不是有点问题啊  就是关于停用词那一块的  感觉不对啊

83
soccy 发表于 2016-3-12 17:42:23

84
jacksum5 发表于 2016-3-14 23:34:05
多谢分享……

85
陌Moderato 发表于 2017-4-11 13:50:28
学习了

86
没有Ru果 发表于 2017-5-29 15:38:53
下载不了

87
mjuwxyou 发表于 2021-10-20 22:34:45
回复本帖可获得 2 个论坛币奖励! 每人限 1 次

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jr
拉您进交流群
GMT+8, 2025-12-30 19:26