[问答] R读取文本文件的问题 [推广有奖]

0关注
0粉丝

小学生

28%

还不是VIP/贵宾

威望: 0 级
论坛币: 9 个
通用积分: 0.1200
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 52 点
帖子: 5
精华: 0
在线时间: 6 小时
注册时间: 2013-2-25
最后登录: 2017-4-12

楼主

chenyen26 发表于 2015-10-10 15:36:42 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

用tm做文本分析，想要剔除中文的停用词
在网上找了停用词表用read.table读入。提示
Warning message:
In scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :
EOF within quoted string

我看了一下，只读入了18行数据。后面的数据没有，我猜测是后面的数据中存在指针结束符，导致读取终止。我把18行后面几行数据删掉以后果然可以继续读取。
由于我在后面要生成词频矩阵，需要把停用词文本文件转换成UTF-8。但我转存以后，就无法按停用词所显示的换行符读取。有些地方一次读取好几行内容，内容中间还包括“\n”
求解决方法。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：文本文件 warning strings Message string message 文本文件 within 中文 file

stop_words_ch.txt
下载链接: https://bbs.pinggu.org/a-1891431.html

4.17 KB

相关帖子

沙发

chenyen26 发表于 2015-10-10 17:41:32

我目前的解决办法是，不将停用词文本文件转存为utf格式。注意读取时也不要加encoding='UTF-8'，能正常显示中文。
然后，用坛子里说的一个办法把停用词向量转换为utf-8编码。
stopwords_CN<-enc2utf8(stopwords_CN) #转utf-8
stopwords_CN<-stopwords_CN[Encoding(stopwords_CN)!="unknown"]#去除未知编码字符
这样在后面调用tm_map时，就不会出错。
但是，为什么read.table方法不能健壮一点，能够完全正确地读出转为utf-8格式的文本。或者对文本文件的换行符做替换处理？