R语言词云图实现(19大报告为例)-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 考研考博>>

考研

>>

R语言词云图实现(19大报告为例)

R语言词云图实现(19大报告为例)

发布:huiyujuanjuan | 分类:考研

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

“词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(RichGordon)提出。戈登做过编辑、记者,曾担任迈阿密先驱报(MiamiHerald)新媒体版的主任。他一直很关注网络内容发布的最新形式——即那些 ...
扫码加入金融交流群


“词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)提出。戈登做过编辑、记者,曾担任迈阿密先驱报(Miami Herald)新媒体版的主任。他一直很关注网络内容发布的最新形式——即那些只有互联网可以采用而报纸、广播、电视等其它媒体都望尘莫及的传播方式。通常,这些最新的、最适合网络的传播方式,也是最好的传播方式。 因此,“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“ 关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。

下面以19大报告为例,说明词云图的制作。

加载词云图制作工具包wordcloud2和jiebaR,其中前者用来绘制词云图,后者用来对中文进行分词,即把文档转换成一个一个单独的词语。需要指出的是,wordcloud2工具包需要从github网站下载,直接利用install.packages方法存在问题。具体如下:

>install_github('lchiffon/wordcloud2')

>library(wordcloud2)

>library(jiebaR)

上百度找一个19大报告全文,然后复制保存为文本文档形式,并命名为19th.txt,保存到当地F盘,然后利用scan命令扫描文档:

>contents <- scan('F://1919th.txt',what='character')

并利用worker设置分词形式:

>cutter <- worker()

对文档进行分词处理,具体为:

>segWords <- segment(contents,cutter)

>head(segWords)

[1] "决胜" "全面" "建成" "小康社会" " " "夺取"

进一步把分词整理成表格形式,即显示各种词语出现的次数,具体如下:

>wordsNum <- table(segWords)

>head(wordsNum)

segWords

  1018 2017 爱 爱澳

1 1 1 1 4 1

>wordcloud2(wordsNum)


图2.40 19大词云图

从图上可以看出,出现次数较高的是“的”、“和”、“中国”、“发展”和“人民”,考虑到“的”与“和”为连接词,没有意义,需要把这些剔除,才能使词云图更加美观。具体进行如下操作:删除连词“的”“是”“和”:

>segWords <- gsub('的||和||是','',segWords)

>segWords <- segWords[nchar(segWords)!=0]

在此基础上进行表格整理:

>wordsNum <- table(segWords)

考虑到词语非常多,因此选择按高到低排序,并选择前500个词语绘制词云图:

>wordsNum <- sort(wordsNum, decreasing = TRUE)

>wordsData <- data.frame(wordsNum)

>wordsData <- wordsData[1:500,]

>wordcloud2(wordsData,0.4)


图2.41 简化后19大词云

环形图可以看出,“人民”、“发展”和“建设”等词语字体较大,说明出现次数较高。进一步对形状进行设置,选择单词“R”和党徽形状进行分析,具体如下:

>letterCloud(wordsData,word='R',size=0.3)

然后百度一个党徽图案,最好只有两色的。保存在本地文件夹F盘根目录下,并命名为public。输出党微形状的词云图命令为:

>wordcloud2(wordsData,figPath = 'F://public.jpg',size=0.5,color = 'red')


感兴趣的读者可进一步参考《量化投资基础、方法与策略——R语言实战指南》,里面详细介绍R语言的入门,并介绍如何利用R语言进行量化投资。


「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-7284700-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
经管之家 人大经济论坛 大学 专业 手机版