人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛 › 用R语言做词云图等文字挖掘

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: 铿锵绿色

6739 1

[程序分享] 用R语言做词云图等文字挖掘 [推广有奖]

0关注
142
粉丝

副教授

83%

还不是VIP/贵宾

威望: 0 级
论坛币: 11004 个
通用积分: 192.0299
学术水平: 113 点
热心指数: 142 点
信用等级: 103 点
经验: 15139 点
帖子: 460
精华: 0
在线时间: 1513 小时
注册时间: 2014-4-28
最后登录: 2024-4-16

铿锵绿色 发表于 2018-5-8 20:10:20 |显示全部楼层 |坛友微信交流群

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

用R语言做词云图首先要进行分词，R中有两个包Rwrodseg和jiebaR包可以实现分词，仔细对比两个包可以发现jieba包做的更好，功能函数要多一些。这里我们以红楼梦文本为例，进行文本分析。本文实现三个部分任务：

Part 1：以红楼梦110回为例，做词云图；
Part 2：统计介词和助词频率；
Part 3：统计指定词频率。

首先，我们把红楼梦文本数据读取进入R里面，使用scan函数读取，并结合正则表达式分章节，最后用sapply函数分开文本：

rm(list = ls())
file.data <- scan("hongloumeng.txt", sep = "\n", what = "")
chapter <- grep(pattern = "第.+回 ", file.data)
txt <- sapply(seq_along(chapter), function(i) {
if (i < length(chapter)) {
paste(file.data[chapter[i]:(chapter[i + 1] - 1)], collapse = "")
} else {
paste(file.data[chapter[i]:length(file.data)], collapse = "")
}
})

复制代码

接下来完成Part1部分：

#### 以第110回为例，用txt[[110]]表示即可
library(jiebaR)
## PART 1:实词词云图
cutter <- worker(stop_word = "stop_word.txt")
# 添加新词，如贾宝玉等
new_user_word(cutter, "贾宝玉")
# 分词
segwords <- segment(txt[[110]], cutter)
# 字符大于1
segwords <- segwords[which(nchar(segwords) > 1)]
# filter words
segwords <- filter_segment(input = segwords, filter_words = "一个")
# frequency
fq <- freq(segwords)
fq <- fq[order(fq$freq, decreasing = TRUE), ]
fq[1:100, ]
fq <- fq[1:500, ]
library(wordcloud2)
wordcloud2(fq[1:300, ], size = 0.5, minSize = 0, shape = "star", ellipticity = 0.85)

复制代码

效果图如下：

Part 2部分代码如下：

## PART 2: 虚词词频率统计
cutter2 <- worker("tag")
classfication <- cutter2 <= txt[[110]]
# u表示助词,p表示介词等，参考https://wenku.baidu.com/view/a093f16ab84ae45c3b358c8c.html
mywords <- c("u", "p")
xuci <- classfication[which(names(classfication) %in% mywords)]
myfreq <- freq(xuci)
myfreq <- myfreq[order(-myfreq$freq), ]
myfreq

复制代码

Part 2部分结果为（左边第一列为行序号）：

char freq

复制代码

Part 3部分代码如下：

## PART 3：指定虚词为"之", "其", "或"
cutter3 <- worker("tag")
classification <- cutter3 <= txt[[110]]
mywords2 <- classification[which(unname(classification) %in% c("之", "其", "或"))]
freq(mywords2)
help(package = "jiebaR")

复制代码

结果为

char freq
1 或 3
2 之 6
3 其 4

复制代码

   以上就是一个简单的词云图例子。
                                                                                       R语言爱好者大珞珞
                                                                                          2018年5月8日

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

[程序分享] 用R语言做词云图等文字挖掘 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[程序分享] 用R语言做词云图等文字挖掘 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群