楼主: teresa_ya
3117 5

[问答] 关于R语言分词的疑问 [推广有奖]

  • 0关注
  • 1粉丝

已卖:1份资源

大专生

65%

还不是VIP/贵宾

-

威望
0
论坛币
17 个
通用积分
2.0001
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
291 点
帖子
27
精华
0
在线时间
37 小时
注册时间
2017-3-20
最后登录
2021-2-18

楼主
teresa_ya 发表于 2017-7-4 19:07:29 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
用R语言对中文文章进行爬虫,之后进行词频处理过程中,得出的文章中出现最多的词往往是“的”,“和”之类的连接词,真实有效的信息被掩盖掉了,请问如何处理这样的问题?谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:R语言 中文文章 连接词 词频处理

回帖推荐

风之将尽 发表于3楼  查看完整内容

方法一:去除停用词 res=1)

沙发
showmonki 在职认证  发表于 2017-7-4 21:05:58 来自手机
这种叫做停用词。停用词要去掉的。多找些文本分析的文章里面可能会写具体代码

藤椅
风之将尽 学生认证  发表于 2017-7-4 22:32:03
方法一:去除停用词
res<-gsub(pattern="[我|你|的|了|是|们]","",res)
这个是用替换的方法把原文本中的这些单个无意义的词去掉,再做的到位一点可以添加停用词词典,这个词典搜狗上应该有。

方法二:在统计时去掉词长小于2的词
m<-subset(t, nchar(as.character(t$词))>1 & t$词频>=1)

板凳
风之将尽 学生认证  发表于 2017-7-4 22:33:46
风之将尽 发表于 2017-7-4 22:32
方法一:去除停用词
res=1)
t后面应该是跟号dollar号,网页这么打好像出不来,“tdollar号词“”

报纸
chaunceyzhou 发表于 2017-7-18 15:08:33
风之将尽 发表于 2017-7-4 22:33
t后面应该是跟号dollar号,网页这么打好像出不来,“tdollar号词“”
segmentCN(file.choose(),returnType="tm")
mydoc<-readLines(file.choose(),encoding = "UTF-8")
mydoc.vec<-VectorSource(mydoc)
mydoc.corpus<-Corpus(mydoc.vec)
#删除停用词
data_stw=read.table(file=file.choose(),colClasses="character")   #读取的csv文件。有需要去掉的标点,数字,英文字母,中文。
stopwords_CN=c(NULL)
for(i in 1:length(data_stw)){
  stopwords_CN=c(stopwords_CN,data_stw)
}
mydoc.corpus<-tm_map(mydoc.corpus,removeWords,stopwords_CN)  

Error in sort.int(x, na.last = na.last, decreasing = decreasing, ...) :
  'x' must be atomic
这个问题请问怎么解决?

地板
风之将尽 学生认证  发表于 2017-8-5 16:35:12
chaunceyzhou 发表于 2017-7-18 15:08
segmentCN(file.choose(),returnType="tm")
mydoc
我也是初学,不过代码是不是没贴全,报错中的sort.int并没在代码中。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-25 04:29