使用Rwordseg包进行中文分词,然后用tm包中的Corpus转换语料库,利用DocumentTermMartix进行文档词频转换,悲剧的发现词频中有很多空格和换行符,各位大侠,应该如何解决呢?谢谢。
具体代码如下:
c.vec <- segmentCN(tmp, returnType="tm")#分词
c.vec <- gsub("[\n]","",c.vec)#分词
c.corpus <- Corpus(VectorSource(c.vec))#构建语料库
c.corpus <- tm_map(c.corpus, removeWords, stopwordsCN())#剔除停用词
ctrl <- list(removePunctuation = T,
stopwords = stopwordsCN(), wordLengths = c(1, Inf))
c.dtm <- DocumentTermMatrix(c.corpus, control = ctrl)#形成词条和文档关系矩阵
t1 <- findFreqTerms(c.dtm,1)
tmp
[1] "宝宝很喜欢吃,量也挺足的,有包"
[2] "米饼真的很好,罗勒味最好吃,但是不适合宝宝,味道有点重"
[3] "宝宝爱吃,除了原味的,另外两种味道偏重"
[4] "儿子很爱吃,很少见他喜欢吃零食~原味的有淡淡的米香,不咸,香脆可口"
[5] "买了很多次了。"
[6] "只有原味了的宝宝能吃 另外两个对宝宝来说都比较重"
[7] "开了原味的自己尝了尝,是没有味道的旺旺仙贝。"
[8] "吃了原味的,适合宝宝吃"
[9] "开了罗勒口味的,很特殊的香味,好吃"
[10] "口味一般,没有想象中好吃。总体来说还可以"
最终的t1结果如下:
t1
[1] "爱 吃 " "包\n"
[3] "宝宝" "不 适合"
[5] "尝 " "吃 "
[7] "吃 量 " "吃 零食"
[9] "吃\n" "淡淡的 米 香 不 咸 香 脆 可口"
[11] "都 比较" "儿子"
[13] "还 " "好吃"
[15] "很 爱 吃 很 少 见 " "很 多次"
[17] "很 好 罗 勒 味 最" "很 特殊"
[19] "很 喜欢" "开"
[21] "口味" "来说"
[23] "两个" "两种"
[25] "罗 勒 口味" "买 "
[27] "没有" "米 饼 真的"
[29] "偏重" "适合"
[31] "挺 足 " "旺 旺 仙 贝\n"
[33] "味道" "喜欢"
[35] "香味" "想象"
[37] "有点" "原 味 "
[39] "只 " "中 好吃"
[41] "重\n" "总体"


雷达卡





京公网安备 11010802022788号







