楼主: lightcatcher
18632 10

[问答] 文本分析(tm)怎么导入中文停用词? [推广有奖]

  • 0关注
  • 1粉丝

高中生

22%

还不是VIP/贵宾

-

威望
0
论坛币
2 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
219 点
帖子
17
精华
0
在线时间
25 小时
注册时间
2012-2-17
最后登录
2019-4-4

楼主
lightcatcher 发表于 2014-5-24 15:39:32 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
用tm做文本分析,想要剔除中文的停用词
在网上找了一个哈工大的停用词表
然后保存为一个名为stopwordsCN的文本向量
但是用tm_map(X, removeWords,stopwordsCN)却提示出错了,“错误于gsub(sprintf("(*UCP)\\b(%s)\\b", paste(words, collapse = "|"))”
求解决方法
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Collapse REMOVE SPRINT words print 哈工大 中文 网上

沙发
mmcaihong88 发表于 2014-10-7 10:26:38
我也遇到了同样的问题,大神,您解决了吗?

藤椅
zzzjlu 发表于 2014-10-9 10:14:11
大神,如何解决的~~

板凳
静晓晓晓晓 发表于 2014-10-18 16:33:41
我也是,悲催

报纸
静晓晓晓晓 发表于 2014-10-18 16:33:58
我也是,悲催

地板
358463121 发表于 2014-11-26 22:11:37
我也遇到这个问题,被我解决了,出现这个的原因是你的stopwordsCN存在非UTF-8的字符,解决方法:
stopwordsCN<-enc2utf8(stopwordsCN) #转utf-8
stopwordsCN<-stopwordsCN[Encoding(stopwordsCN)!="unknown"]#去除未知编码字符

7
zheguzai100 发表于 2014-12-24 16:26:20
文件--另存为--stopwordsCN.dat (##在【保存】按钮左边齐平的位置 编码类型设置为‘UTF-8’##)
done.
已有 1 人评分论坛币 收起 理由
admin_kefu + 20 热心帮助其他会员

总评分: 论坛币 + 20   查看全部评分

8
用户名是啥 发表于 2015-5-5 15:20:21
请问如何进行分词啊
> words = unlist(lapply(X = res,FUN = segmentCN))
Error in .jcall(analyzer, "S", strfunc, X) :
  java.lang.OutOfMemoryError: Java heap space: failed reallocation of scalar replaced objects
> word=lapply(X=words, FUN=strsplit, " ")
Error in FUN(X[[i]], ...) : 非字符参数
为何我的会出现如下错误??另外楼主你说的停词表还有细胞词库应该怎么编写语句啊?求大神指点

9
郭田奇 发表于 2015-6-24 10:35:33
用户名是啥 发表于 2015-5-5 15:20
请问如何进行分词啊
> words = unlist(lapply(X = res,FUN = segmentCN))
Error in .jcall(analyzer, " ...
stopcn<-read.csv("stopword.csv")#保存的时候编码就保存为utf-8
stopwordcn<-as.character(stopcn$x)
X <- tm_map(X,removeWords,stopwordcn)

10
松子茶hc 发表于 2015-11-3 16:29:42
我将停用词转换成了uft-8编码,也导入成功了,没有错误,但是实际结果中,停用词并没有被删除,请问有遇到过这种情况的吗?怎么解决呢?谢谢啦~~

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-29 06:54