请选择 进入手机版 | 继续访问电脑版
楼主: 浮世若离丶
7773 10

[原创博文] 教你使用Pyecharts绘制词云图.docx [推广有奖]

  • 4关注
  • 69粉丝

教授

64%

还不是VIP/贵宾

-

威望
1
论坛币
25044 个
通用积分
98.3144
学术水平
71 点
热心指数
100 点
信用等级
50 点
经验
20419 点
帖子
666
精华
1
在线时间
1301 小时
注册时间
2015-8-6
最后登录
2023-7-5

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云可以过滤掉大量的低频的文字信息,这样做可以使得用户一眼就能抓住文本的核心。

喜欢做数据分析的小伙伴对词云图应该更是熟悉,那有没有一种好的工具可以快速生成词云图呢?画词云图的一般步骤是什么呢?

为了理解词云图绘制,我们类比一个小学生学画画的场景,你一定不陌生:
小孩开始画画的时候,许多家长觉得他们画的东西什么都“不像”、“乱七八糟”、“一塌糊涂”。于是他们上书店为孩子买回填色书,这类印有动物,风景的轮廓线,孩子们在线内填上颜色的填色书,在市场上很常见,买回后让小孩规规矩矩地涂色,看到有点像样了,爸爸妈妈们才感觉到欣慰。

总结起来,就是三大步:准备原材料(五颜六色的画笔)、选定一个填色书(需要有形状轮廓等)、最后开始填色。

实际上,画词云图其实也是这三大步骤。此次,我们以一则案例来讲解词云图绘制流程,并使用Python+Pyechats进行词云数据可视化。

1、准备原材料
准备好一份自己需要分析的文本材料,今天练习选取的是林俊杰的七首歌曲进行可视化,长这样: 图片 1.png



在这里,我们主要会用到Python库jieba,jieba是一个非常好用的中文分词工具。

首先,我们定义了一个函数read_content函数将同一个目录下的文档都读入到content文本对象里面。
图片 4.png

然后,我们使用jieba分词包对读入的数据进行分词,选取出现频率最高的100个词,并按照权重值输出。
图片 2.png



预览一下前5行:
图片 3.png


至此,我们准备好了绘图所需的原材料。

2、选定填充书
关于词云图的绘制,我们采用pyecharts库中的WordCloud进行绘制,如果你没有安装,可以使用pip install pyecharts进行安装。

关于词云图的轮廓形状,有'circle', 'cardioid', 'diamond', 'triangle-forward', 'triangle', 'pentagon', 'star'可选
此处,我们选择“diamond(钻石)”形状进行绘制

结果图如下:
图片 5.png


换一个图形,使用“star(星星)”来绘制:
图片 6.png

从词云图中,这几首歌中,回忆、记忆、缘分等比重较大,也与歌曲主题大致相符。

PS:
[CDA数据分析师周末集训营] 4.13号开班,针对周末时间充裕、在校生、期待系统提升数据分析技能或转行人员提供长达6个月的周末非脱产集训课程,毕业之后可以推荐相关工作。
课程内容涵盖数据库管理-统计学分析方法-数据分析软件应用(涵盖Excel、SQL、Tableau、SPSS、Python等)-数据挖掘算法模型一整套数据分析流程进行系统讲解,最后结合热门行业电商、金融、电信、医药真实案例和业务出发,升华技术应用场景,使所学更符合就业要求, 达到企业用人标准,快速在大数据时代找准工作定位。学员毕业要求能够独立完成商业数据分析项目,能够掌握数据数据分析大多数岗位(包括数据分析师、可视化工程师、机器学习工程师、算法工程师等岗位等)技能。

一、课程信息
时间:2019.4.13日开课(6个月周末集训)
地点:北京现场 & 深圳远程 & 成都远程 & 全国直播
授课安排:现场班20800元 远程班15800元

二、如何报名?
1. 在线填写报名信息
电脑端:https://www.cda.cn/kecheng/87.html
微信端(扫码访问):
图片 7.png

2. 给予反馈,确认报名信息
3. 网上缴费
4. 开课前一周发送电子版课件和教室路线图

联系课程顾问,获取详细课程大纲和课程案例、试听视频。
咨询电话:010-53351739
咨询微信:13121318867
图片 8.png


阅读原文:
https://www.cda.cn/kecheng/87.html




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据分析师 统计学分析 数据分析 出现频率 挖掘算法

已有 1 人评分经验 收起 理由
arthistory4 + 20 精彩帖子

总评分: 经验 + 20   查看全部评分

非常好的词云可视化工具

使用道具

比特小生 在职认证  发表于 2019-4-2 09:53:46 |显示全部楼层 |坛友微信交流群
词云图可以使得用户一眼就能抓住文本的核心。

使用道具

Still.. 企业认证  发表于 2019-4-2 10:02:51 |显示全部楼层 |坛友微信交流群
课程内容涵盖数据库管理-统计学分析方法-数据分析软件应用(涵盖Excel、SQL、Tableau、SPSS、Python等)-数据挖掘算法模型一整套数据分析流程进行系统讲解

使用道具

hifinecon 发表于 2019-4-2 15:00:04 |显示全部楼层 |坛友微信交流群

使用道具

yunnandlg 在职认证  学生认证  发表于 2019-4-3 15:40:46 |显示全部楼层 |坛友微信交流群
Keep your eyes on the stars and your feet on the ground.
仰望星空,脚踏实地。
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
宽客老丁 + 1 + 1 + 1 分析的有道理

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

tianwk 发表于 2019-4-3 17:13:23 |显示全部楼层 |坛友微信交流群
thanks for sharing

使用道具

karst 发表于 2019-4-3 18:30:59 |显示全部楼层 |坛友微信交流群
看一下,学习学习

使用道具

琥珀糖 发表于 2019-4-3 18:36:36 |显示全部楼层 |坛友微信交流群
词频统计这种粗暴的方式真是没有太多信息含量

使用道具

wangyong8935 在职认证  发表于 2019-4-3 21:22:24 |显示全部楼层 |坛友微信交流群

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-19 01:37