楼主: pennyr617
4283 3

[实际应用] R中文停用词包导入问题 [推广有奖]

  • 0关注
  • 0粉丝

本科生

98%

还不是VIP/贵宾

-

威望
0
论坛币
841 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
837 点
帖子
51
精华
0
在线时间
143 小时
注册时间
2012-3-31
最后登录
2023-12-4

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
用Rwordseg包做分词时导入停用词包显示乱码,导入代码和导入文本如下图所示,请问应怎样修改导入代码:
stopwords<- read.table("D:/R-learning/中文停用词表.txt",stringsAsFactors = FALSE)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:words word Stop RDS SEG

中文停用词乱码截图.png (23.69 KB)

中文停用词乱码截图.png

沙发
niu9146 发表于 2019-1-10 13:57:41 |只看作者 |坛友微信交流群
编码错误吧!
查看你txt文本编码方式,一般是UTF-8
加入 encoding="UTF-8"

使用道具

藤椅
pennyr617 发表于 2019-1-10 17:03:30 |只看作者 |坛友微信交流群
谢谢楼上,现在导入的文本已经不是中文了,但是好像字符之间的分割有点问题,代码和导入文本如下所示:
stopwords<- read.table("D:/R-learning/中文停用词表.txt",stringsAsFactors = FALSE,encoding = "UTF-8",sep = "\n")
导入停用词表问题.png

使用道具

板凳
admin_kefu 在职认证  发表于 2019-1-14 18:52:38 |只看作者 |坛友微信交流群
您好,如果您的求助没有解决,请到项目交易发布需求,会有更快更专业的用户帮助您 https://bbs.pinggu.org/prj/

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-20 23:49