喜欢做数据分析的小伙伴对词云图应该更是熟悉,那有没有一种好的工具可以快速生成词云图呢?画词云图的一般步骤是什么呢?
为了理解词云图绘制,我们类比一个小学生学画画的场景,你一定不陌生:
小孩开始画画的时候,许多家长觉得他们画的东西什么都“不像”、“乱七八糟”、“一塌糊涂”。于是他们上书店为孩子买回填色书,这类印有动物,风景的轮廓线,孩子们在线内填上颜色的填色书,在市场上很常见,买回后让小孩规规矩矩地涂色,看到有点像样了,爸爸妈妈们才感觉到欣慰。
总结起来,就是三大步:准备原材料(五颜六色的画笔)、选定一个填色书(需要有形状轮廓等)、最后开始填色。
实际上,画词云图其实也是这三大步骤。此次,我们以一则案例来讲解词云图绘制流程,并使用Python+Pyechats进行词云数据可视化。
1、准备原材料
准备好一份自己需要分析的文本材料,今天练习选取的是林俊杰的七首歌曲进行可视化,长这样:
在这里,我们主要会用到Python库jieba,jieba是一个非常好用的中文分词工具。
首先,我们定义了一个函数read_content函数将同一个目录下的文档都读入到content文本对象里面。
然后,我们使用jieba分词包对读入的数据进行分词,选取出现频率最高的100个词,并按照权重值输出。
预览一下前5行:
至此,我们准备好了绘图所需的原材料。
2、选定填充书
关于词云图的绘制,我们采用pyecharts库中的WordCloud进行绘制,如果你没有安装,可以使用pip install pyecharts进行安装。
关于词云图的轮廓形状,有'circle', 'cardioid', 'diamond', 'triangle-forward', 'triangle', 'pentagon', 'star'可选
此处,我们选择“diamond(钻石)”形状进行绘制
结果图如下:
换一个图形,使用“star(星星)”来绘制:
从词云图中,这几首歌中,回忆、记忆、缘分等比重较大,也与歌曲主题大致相符。
PS:
[CDA数据分析师周末集训营] 4.13号开班,针对周末时间充裕、在校生、期待系统提升数据分析技能或转行人员提供长达6个月的周末非脱产集训课程,毕业之后可以推荐相关工作。
课程内容涵盖数据库管理-统计学分析方法-数据分析软件应用(涵盖Excel、SQL、Tableau、SPSS、Python等)-数据挖掘算法模型一整套数据分析流程进行系统讲解,最后结合热门行业电商、金融、电信、医药真实案例和业务出发,升华技术应用场景,使所学更符合就业要求, 达到企业用人标准,快速在大数据时代找准工作定位。学员毕业要求能够独立完成商业数据分析项目,能够掌握数据数据分析大多数岗位(包括数据分析师、可视化工程师、机器学习工程师、算法工程师等岗位等)技能。
一、课程信息
时间:2019.4.13日开课(6个月周末集训)
地点:北京现场 & 深圳远程 & 成都远程 & 全国直播
授课安排:现场班20800元 远程班15800元
二、如何报名?
1. 在线填写报名信息
电脑端:https://www.cda.cn/kecheng/87.html
微信端(扫码访问):
2. 给予反馈,确认报名信息
3. 网上缴费
4. 开课前一周发送电子版课件和教室路线图
联系课程顾问,获取详细课程大纲和课程案例、试听视频。
咨询电话:010-53351739
咨询微信:13121318867
阅读原文:
https://www.cda.cn/kecheng/87.html