新手刚刚入门R,利用R语言做文本主题分析时。
(1)中途遇到DocumentTermMatrix矩阵报错问题:Error in nchar(Terms(x), type = "chars") : invalid multibyte string
所以按照网上的教程先设置Sys.setlocale(locale="English"),再执行生成DTM矩阵的代码,后设回Sys.setlocale(category = "LC_ALL", locale = "Chinese")
(2)encoding已改为UTF-8,segment分词最后的结果是中文格式。
(3)Sys.setlocale()检查的结果是LC_COLLATE=Chinese (Simplified)_China.936
(4)可是LDA最后的每个Topic的结果都是类似于<U+8BA1><U+7B97>格式的乱码,不知道问题出在哪里哇卡卡卡卡,求各位帮帮忙。