楼主: 咸鱼233
2085 2

[求助] R语言LDA主题分析结果分析乱码(encoding已经改为UTF-8) [推广有奖]

  • 0关注
  • 0粉丝

学前班

50%

还不是VIP/贵宾

-

威望
0
论坛币
8 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
50 点
帖子
1
精华
0
在线时间
1 小时
注册时间
2020-3-28
最后登录
2020-9-13

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
新手刚刚入门R,利用R语言做文本主题分析时。
(1)中途遇到DocumentTermMatrix矩阵报错问题:Error in nchar(Terms(x), type = "chars") : invalid multibyte string
所以按照网上的教程先设置Sys.setlocale(locale="English"),再执行生成DTM矩阵的代码,后设回Sys.setlocale(category = "LC_ALL", locale = "Chinese")
(2)encoding已改为UTF-8,segment分词最后的结果是中文格式。
(3)Sys.setlocale()检查的结果是LC_COLLATE=Chinese (Simplified)_China.936
(4)可是LDA最后的每个Topic的结果都是类似于<U+8BA1><U+7B97>格式的乱码,不知道问题出在哪里哇卡卡卡卡,求各位帮帮忙。




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:RStudio 中文乱码 LDA主题分析 R语言

将编码改为'gbk'

使用道具

藤椅
pingguoxiao99 发表于 2021-3-5 14:39:26 |只看作者 |坛友微信交流群
求问,求问楼主最后作文呢么解决的,救我一定!!!!!!!困扰我好久了

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-1 09:24