各位大神好,我想问一下如果在先用tm构建语料库然后构建词矩阵中,我想用jiebaR进行分词而不用Rwordseg进行分词,应该怎样组织jieba分词形式才能实现呢?我试过好几种形式都不能得出词矩阵。(我花了两天研究安装Rwordseg都不成功,最后只好放弃用jiebaR了)
以下是我的一些尝试:
###因为我看到Rwordseg是以列表形式导出所以我尝试把jiebaR以列表的形式导出
library(jiebaR)
mixseg2=worker(user="D:/R/R-3.2.3/library/jiebaRD/dict/user.dict.utf8")##添加一个词库,库内优先分词
func2=function(x) segment(x,mixseg2)
jieba_v2l=function(x){
n=length(x)
rev=list(0)
for(i in 1:n){
rev[i]=list(func2(x[i]))
}
return(rev)
}
#####test
library(tm)
doc<-c("你好李","再见李","你好李再见")#待分词向量形式
t1=jieba_v2l(as.character(doc))##分词
t1
[[1]]
[1] "你好" "李"
[[2]]
[1] "再见" "李"
[[3]]
[1] "你好" "李" "再见"
t=Corpus(VectorSource(doc),readerControl=list(language="GB2312"))##建立词料库
inspect(t)######到这一步感觉是没问题的
<<VCorpus>>
Metadata: corpus specific: 0, document level (indexed): 0
Content: documents: 3
[[1]]
<<PlainTextDocument>>
Metadata: 7
Content: chars: 4
[[2]]
<<PlainTextDocument>>
Metadata: 7
Content: chars: 4
[[3]]
<<PlainTextDocument>>
Metadata: 7
Content: chars: 8
matrix<-DocumentTermMatrix(t)##构造词矩阵
inspect(matrix)
<<DocumentTermMatrix (documents: 3, terms: 0)>>
Non-/sparse entries: 0/0
Sparsity : 100%
Maximal term length: 0
Weighting : term frequency (tf)
Terms
Docs
1
2
3
#######################
##这一步出问题了,词矩阵完全建立不起来。中文显示不了,我用英文测试是可以构建出来的。请问有遇到相同问题的大大吗?急求解救方法


雷达卡



[em19][em19][em19]
京公网安备 11010802022788号







