1868 5

[问答] R做文本词频统计 百试不得其解 [推广有奖]

  • 0关注
  • 0粉丝

本科生

16%

还不是VIP/贵宾

-

威望
0
论坛币
37 个
通用积分
2.0555
学术水平
1 点
热心指数
1 点
信用等级
0 点
经验
216 点
帖子
55
精华
0
在线时间
49 小时
注册时间
2013-8-3
最后登录
2023-6-10

楼主
怎么没来盗号! 在职认证  发表于 2020-4-22 11:34:22 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
用Rstudio 做最简单的文本分析,统计词频做词云什么的,用了如下代码
在开始统计词频的时候就出错了,输出的结果是空的,请教各位,我这个代码什么地方出错了啊???

setwd("D://Desktop")
install.packages("jiebaRD")
library(jiebaRD)
install.packages("jiebaR")
library(jiebaR)
wk<-worker()
# 添加用户自定义词库
wk<-worker(user="dictionary.txt")#好像添加了也没用啊
# 删除停用词
wk<-worker(stop_word="ChineseStopWords.txt")
# 读取文本文件
wk[file.choose()]
# 选择分词后的文件
f<-scan(file.choose(),sep="\n",what="",encoding="UTF-8")
#统计词频及排序,从这一步开始出问题
df<-freq(wk[f])##这就直接报错,为什么啊
df<-df[order(-df$freq),]
install.packages("rlang")
install.packages("RSQLite")
install.packages("sqldf")
library(rlang)
library(RSQLite)
library(sqldf)
df<-sqldf("select [char],[freq] from df where length([char])>0 limit 100")
df<-df[nchar(df$char)>1,]
head(df)
View(df)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Packages Library package install RStudio 文本分析 文本分析 文章 如何 统计 电脑 自动文本分析

沙发
494860871 学生认证  发表于 2020-4-22 11:52:19 来自手机
怎么没来盗号! 发表于 2020-4-22 11:34
用Rstudio 做最简单的文本分析,统计词频做词云什么的,用了如下代码
在开始统计词频的时候就出错了,输出 ...
可以试试python,比这个简单一些

藤椅
怎么没来盗号! 在职认证  发表于 2020-4-22 12:58:47 来自手机
494860871 发表于 2020-4-22 11:52
可以试试python,比这个简单一些
Python 在网上找的代码自己试也是各种出错,快疯了

板凳
jzbd 发表于 2020-9-5 13:48:22
楼主,用R做。成功了吗? 我最近也在学这个。

报纸
sanjie27 发表于 2020-9-5 14:06:44
用到的文件在附件中

  1. library(jiebaR)
  2. library(tmcn)
  3. library(tidyverse)
  4. library(wordcloud2)


  5. wk <- worker()
  6. # 文件放在工作目录下
  7. f <- scan('a.txt',sep='\n',what='',encoding="UTF-8")
  8. seg <- tibble(word=segment(f,wk))

  9. # 停用词
  10. stopwordsCN <- tibble(word = stopwordsCN())


  11. # 词频统计
  12. fre <- seg %>% anti_join(stopwordsCN) %>%
  13.   filter(str_length(word) >= 2)%>%
  14.   count(word,sort = T)

  15. # 查看结果
  16. fre

  17. # 词云
  18. wordcloud2(fre)
复制代码



Rplot.png

地板
怎么没来盗号! 在职认证  发表于 2020-10-30 13:22:06
jzbd 发表于 2020-9-5 13:48
楼主,用R做。成功了吗? 我最近也在学这个。
成功了,统计词频用这个
f=freq(strsplit(readLines(out,encoding="UTF-8")," ")[[1]])

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-2 03:13