发帖

楼主: 鸡聚族以争食1

2249 1

[问答] 关于jiebaR构建词矩阵的问题 [推广有奖]

0关注
0粉丝

高中生

72%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 241 个
通用积分: 11.0000
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 319 点
帖子: 5
精华: 0
在线时间: 63 小时
注册时间: 2015-11-29
最后登录: 2025-1-23

楼主

鸡聚族以争食1 发表于 2016-5-25 21:39:39 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

各位大神好，我想问一下如果在先用tm构建语料库然后构建词矩阵中，我想用jiebaR进行分词而不用Rwordseg进行分词，应该怎样组织jieba分词形式才能实现呢？我试过好几种形式都不能得出词矩阵。（我花了两天研究安装Rwordseg都不成功，最后只好放弃用jiebaR了）
以下是我的一些尝试：
###因为我看到Rwordseg是以列表形式导出所以我尝试把jiebaR以列表的形式导出
library(jiebaR)
mixseg2=worker(user="D:/R/R-3.2.3/library/jiebaRD/dict/user.dict.utf8")##添加一个词库，库内优先分词
func2=function(x) segment(x,mixseg2)
jieba_v2l=function(x){
  n=length(x)
  rev=list(0)
  for(i in 1:n){
rev[i]=list(func2(x[i]))
  }
  return(rev)
  }

#####test
library(tm)
doc<-c("你好李","再见李","你好李再见")#待分词向量形式
t1=jieba_v2l(as.character(doc))##分词
t1
[[1]]
[1] "你好" "李"

[[2]]
[1] "再见" "李"

[[3]]
[1] "你好" "李" "再见"

t=Corpus(VectorSource(doc),readerControl=list(language="GB2312"))##建立词料库
inspect(t)######到这一步感觉是没问题的
<<VCorpus>>
Metadata:  corpus specific: 0, document level (indexed): 0
Content:  documents: 3

[[1]]
<<PlainTextDocument>>
Metadata:  7
Content:  chars: 4

[[2]]
<<PlainTextDocument>>
Metadata:  7
Content:  chars: 4

[[3]]
<<PlainTextDocument>>
Metadata:  7
Content:  chars: 8

matrix<-DocumentTermMatrix(t)##构造词矩阵
inspect(matrix)
<<DocumentTermMatrix (documents: 3, terms: 0)>>
Non-/sparse entries: 0/0
Sparsity          : 100%
Maximal term length: 0
Weighting       : term frequency (tf)

Terms
Docs
1
2
3

#######################
##这一步出问题了，词矩阵完全建立不起来。中文显示不了，我用英文测试是可以构建出来的。请问有遇到相同问题的大大吗？急求解救方法

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：jiebaR EBaR JIE bar function function library 语料库

[问答] 关于jiebaR构建词矩阵的问题 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[问答] 关于jiebaR构建词矩阵的问题 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群