楼主: 浮世若离丶
13896 106

[学科前沿] 我分析了《用商业案例学R语言数据挖掘》书评,告诉你R有多火   [推广有奖]

回帖奖励 6 个论坛币 回复本帖可获得 3 个论坛币奖励! 每人限 1 次
  • 4关注
  • 69粉丝

教授

64%

还不是VIP/贵宾

-

威望
1
论坛币
25044 个
通用积分
98.3144
学术水平
71 点
热心指数
100 点
信用等级
50 点
经验
20419 点
帖子
666
精华
1
在线时间
1301 小时
注册时间
2015-8-6
最后登录
2023-7-5

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
商业智能时代已经全面到来,分析型人才的岗位数量在就业市场中呈现井喷式的增长。无论从事产品研发的工程师,还是从事产品推广的市场人员、人力资源的财务会计人员,都需要掌握数据分析技术,否则很有可能被人工智能时代替代。

“工欲善其事,必先利其器”。当前,R和Python等开源软件方兴未艾,但是这类软件学习曲线缓慢,使很多初学者的热情在进入数据分析的核心领域之前就消失殆尽。而商业数据分析的真正目的是为了解决业务分析需求,构建稳健的数据挖掘模型。因此能否以案例的形式带领我们快读进入数据分析和编程领域领域的资源显得尤为珍贵。

CDA数据分析研究院2017年出版了首本R数据挖掘教材,为了告诉你R语言和数据分析有多火,用数据说话,我爬取了京东商城《用商业案例学R语言数据挖掘》书评,来告诉你…..

从京东的1400+评论从看到,好评1400+,中评10+,差评8。好评率98%。

1.jpg
以下是从京东商城爬取到的部分数据,共有674条记录,存入到excel文件下。

111.jpg

首先,使用Rwordseg进行中文分词
我们知道,中文自然语言处理领域最基础的技术是分词。基础是因为,众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。对于中文的语言处理,首先要把词语进行切分,才能进行更深层次的语言处理。

中文分词比较有名的包非Rwordseg和jieba莫属,他们采用的算法大同小异,这里用Rwordseg来做简单演示。

1. 设置工作目录并读取数据
setwd('D:/R')
library(openxlsx)
data=read.xlsx("R.xlsx", 1,colNames = T,rowNames = F)

2. 加载所需包,这里使用Rwordseg包进行中文分词

library(rJava)
library(Rwordseg)
library(tm)

比如我们使用Rwordseg包对第一行进行分词
segmentCN(data$comment[1])  
分词效果如下:
[1] "梦寐以求" "的"       "有"       "很多"     "案例"   

3. 导入搜狗词库(机器原始分词总有不如意的地方,因此需要添加词、词库来做参照)
insertWords(c("很好","不错"))##手动增加词
installDict("语文教学词库.scel", dictname ="words")

4. 对所有评论信息进行进行分词并计算各个词汇出现的频次,按照词频排序
dataseg=segmentCN(data$comment)   ##对所有评论进行分词
freq = table(unlist(dataseg))   ##计算各个词汇的出现频次
freq = rev(sort(freq))   ##对词频排序

看一下前十名的有效评论:


2.png

5. 构造词汇和词频的数据框
myfile.freq=data.frame(word=names(freq),freq=as.vector(freq),stringsAsFactors = F)
myfile.freq = myfile.freq[-1,]  #删除第一行

然后,我们使用Wordcloud2进行词云展示
Wordcloud2被誉为是可能是目前最好的词云解决方案,调用一个 JS 的库 (wordcloud2.js) 实现 wordcloud。有效的利用词与词的间隔来插入数据,更可以根据图片或者文字来绘制定制化的词云。

如果你没有安装过,可以执行install.packages('wordcloud2')进行简单的安装。

1. 加载包
library(wordcloud2)

2. 绘制词云图

wordcloud2(myfile.freq, size = 1, fontFamily = "微软雅黑",  
           color = "random-light", backgroundColor = "grey")  
效果如下:

3.png

如果你想换个图形,比如想画个星星,那么
wordcloud2(myfile.freq, size = 1,shape = 'star', color = "random-light", backgroundColor = "grey")  

4.png

还可以根据图片或者文字制作定制化词云,比如画个小猴子:
monkey = system.file("examples/monkey.png",package = "wordcloud2")  
wordcloud2(myfile.freq, figPath = monkey, size = 1,color = "random-light", backgroundColor = "grey")

5.png

关于词云图,大小代表词汇出现的频率,所以我们可以看出,通过关键词不错、好、专业、易懂、推荐、必备、清晰等词可以看出本书的评价还是不错的,是一本值得学习的书籍。另外的一类词京东、速度、快、正版、包装等多是评论京东物流和图书质量。

后续:本篇文章只是作为一个趣味性的了解,里面的技术细节也没有深究,比如去停用词、文本分类等。实际上文本数据作为非结构化数据而言,可以经过处理后变成结构化数据,通过数据挖掘模型发掘更有趣的知识发现。

最后打波小广告,如果你对R语言数据分析感兴趣,欢迎参加CDA-R语言专题课程,学习数据分析技能,成为优秀的R语言数据分析专家。

CDA LEVEL I业务数据分析师-R语言:http://www.cda.cn/kecheng/43.html

CDA LEVEL II建模分析师-R语言:https://www.cda.cn/kecheng/31.html

课程顾问:
陈老师
18010006628(微信)
邮箱:chenwenjing@pinggu.org
6.jpg

添加课程顾问,回复R语言,获取课程详情及文中源代码和数据,同时获得预听课大礼包。




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


已有 1 人评分经验 收起 理由
remlus + 100 精彩帖子

总评分: 经验 + 100   查看全部评分

沙发
auirzxp 学生认证  发表于 2018-2-8 09:38:21 |只看作者 |坛友微信交流群

回帖奖励 +3 个论坛币

学习一下

使用道具

会一点R语言,会发现生活很有趣。

使用道具

板凳
Still.. 企业认证  发表于 2018-2-8 09:43:26 |只看作者 |坛友微信交流群

回帖奖励 +3 个论坛币

词云的效果很有趣,想学习一下。

使用道具

报纸
壹手曹刀 发表于 2018-2-8 09:45:12 |只看作者 |坛友微信交流群

回帖奖励 +3 个论坛币

掌握数据分析技术,以防被人工智能时代替代。

使用道具

地板
军旗飞扬 发表于 2018-2-8 10:22:23 |只看作者 |坛友微信交流群

回帖奖励 +3 个论坛币

学习学习啊

使用道具

7
lhf8059 发表于 2018-2-8 10:29:20 |只看作者 |坛友微信交流群

回帖奖励 +3 个论坛币

学习学习

使用道具

8
vampire211 发表于 2018-2-8 11:02:36 来自手机 |只看作者 |坛友微信交流群

回帖奖励 +3 个论坛币

谢谢分享

使用道具

回帖奖励 +3 个论坛币

谢谢分享!值得学习。

使用道具

10
nkunku 发表于 2018-2-8 11:21:38 |只看作者 |坛友微信交流群

回帖奖励 +3 个论坛币

谢楼主,学习一下

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 11:30