各位大神,请问一下大家在利用R做文本挖掘分类时,要产生DocumentTermMatrix,然后利用DocumentTermMatrix进行降维处理,从而实现分类。
可是我产生的dtm矩阵出现这样的情况
Terms
Docs 阿玛施\n新春 癌\n种\n 爱国 爱心 安排
1 0 0 0 0 0
2 1 0 0 0 0
3 0 0 0 0 0
4 0 0 0 0 0
5 0 0 0 0 0
产生的矩阵含有\n标签,按理说“阿玛施”和“新春”是两个词才对,为什么将其当做一个词处理?
我看了一篇帖子,里面说在分词的时候加上segmentCN()设置一下参数returnType = 'tm',结果是这样的:
Terms
Docs 阿玛施 新春 癌 种 爱国 爱心 安排
1 0 0 0 0 0
2 1 0 0 0 0
3 0 0 0 0 0
4 0 0 0 0 0
5 0 0 0 0 0
虽然\n标签没有了但是结果跟上面的结果一模一样啊,
其实 阿玛施 和 新春 应该是两个词 这里为什么把它当做一个词呢, “癌”和“种”是单个字,在生成dtm矩阵的时候我就把它删除了 ,这里为什么还有呢
dtm<-DocumentTermMatrix(corpus, control=list(removePunctuation = TRUE,wordLengths = c(2, Inf)))
求大神赐教


雷达卡





京公网安备 11010802022788号







