楼主: chenyen26
3880 1

[问答] R读取文本文件的问题 [推广有奖]

  • 0关注
  • 0粉丝

小学生

28%

还不是VIP/贵宾

-

威望
0
论坛币
9 个
通用积分
0.1200
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
52 点
帖子
5
精华
0
在线时间
6 小时
注册时间
2013-2-25
最后登录
2017-4-12

楼主
chenyen26 发表于 2015-10-10 15:36:42 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
用tm做文本分析,想要剔除中文的停用词
在网上找了停用词表用read.table读入。提示
Warning message:
In scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings,  :
  EOF within quoted string

我看了一下,只读入了18行数据。后面的数据没有,我猜测是后面的数据中存在指针结束符,导致读取终止。我把18行后面几行数据删掉以后果然可以继续读取。
由于我在后面要生成词频矩阵,需要把停用词文本文件转换成UTF-8。但我转存以后, 就无法按停用词所显示的换行符读取。有些地方一次读取好几行内容,内容中间还包括“\n”
求解决方法。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:文本文件 warning strings Message string message 文本文件 within 中文 file

沙发
chenyen26 发表于 2015-10-10 17:41:32
我目前的解决办法是,不将停用词文本文件转存为utf格式。注意读取时也不要加encoding='UTF-8',能正常显示中文。
然后,用坛子里说的一个办法把停用词向量转换为utf-8编码。
stopwords_CN<-enc2utf8(stopwords_CN) #转utf-8
stopwords_CN<-stopwords_CN[Encoding(stopwords_CN)!="unknown"]#去除未知编码字符
这样在后面调用tm_map时,就不会出错。
但是,为什么read.table方法不能健壮一点,能够完全正确地读出转为utf-8格式的文本。或者对文本文件的换行符做替换处理?

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-9 06:46