楼主: liyuell
2844 5

[问答] DocumentTermMatrix转换出来总是乱码 [推广有奖]

  • 0关注
  • 0粉丝

高中生

72%

还不是VIP/贵宾

-

威望
0
论坛币
63 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
234 点
帖子
16
精华
0
在线时间
34 小时
注册时间
2017-1-9
最后登录
2021-1-18

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
做topicmodel的时候,生成的DTM这个矩阵总是乱码……到dtm前一步都是正常的,wordcorpus并不乱码。
已经转换成utf8了还是木有解决。。。求助!

代码如下:

#将纯文档文件转换为Corpus对象
resutf8<-toUTF8(res)
wordcorpus <- Corpus(VectorSource(resutf8))

#生成DTM
controllist<-list(wordLengths=c(2,Inf),removeNumbers=TRUE,weighting=weightTf,removePunctuation = TRUE,stopwords = stopwordsCN())
dtm <- DocumentTermMatrix(wordcorpus,control = controllist)  

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Document matrix DOCUME term Mat

沙发
AlexYoung757 在职认证  学生认证  发表于 2018-1-3 09:23:58 |只看作者 |坛友微信交流群
把结果贴出来看看,你说的乱码是什么样子的

使用道具

藤椅
liyuell 发表于 2018-1-3 10:55:14 |只看作者 |坛友微信交流群
AlexYoung757 发表于 2018-1-3 09:23
把结果贴出来看看,你说的乱码是什么样子的
<<DocumentTermMatrix (documents: 10, terms: 13)>>
Non-/sparse entries: 34/96
Sparsity           : 74%
Maximal term length: 5
Weighting          : term frequency (tf)
Sample             :
    Terms
Docs 鍑犲勾 鍋氬嚭 浣滅敤 浼<90> 淇濇姢 鍥<9b> 鍗<8a> 鍏ㄧ渷 鍐冲畾 鍐崇瓥
  1       0      0      0      0      0      0      0      0      0      0
  10      0      0      0      0      0      0      0      0      0      0
  2       1      1      1      2      1      1      1      1      1      1
  3       1      1      1      1      1      1      1      1      1      1
  4       0      0      0      0      0      0      0      1      0      0
  5       0      0      0      0      0      0      0      0      0      0
  6       0      0      0      0      0      0      0      0      0      0
  7       0      1      0      0      1      0      1      0      3      0
  8       0      0      0      0      0      1      0      0      0      0

使用道具

板凳
liyuell 发表于 2018-1-3 11:57:45 |只看作者 |坛友微信交流群
刚刚又试了一下,如果设置wordLengths = c(4,4)就不会乱码,即词的长度必须一致,有大神知道这是为什么吗?!!!另外设置为4出来的却是2字的词,是不是和中英文编码之类的有关系???

使用道具

报纸
AlexYoung757 在职认证  学生认证  发表于 2018-1-4 10:48:13 |只看作者 |坛友微信交流群
你试试用tmcn包吧 不要直接用tm包创建tdm矩阵
已有 1 人评分论坛币 收起 理由
jiangbeilu + 10 鼓励积极发帖讨论

总评分: 论坛币 + 10   查看全部评分

使用道具

地板
tsky 发表于 2019-5-25 16:04:38 |只看作者 |坛友微信交流群
楼主解决了吗?
我也碰到这个问题了

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-12-24 11:31