stop-word.txt-经管之家资源下载-人大经济论坛

签到
- 苹果/安卓/wp
- 苹果/安卓/wp
客户端
0.0

0.00

经管百科

人大经济论坛 › 附件下载

附件下载


所在主题： R语言单个文本挖掘实例
文件名: stop-word.txt
资料下载链接地址: https://bbs.pinggu.org/a-2443936.html
附件大小: 4.75 KB 举报本内容
以总理2015报告原文进行挖掘处理，进行简单的词云分析，完整代码，可运行。一、准备工作先将报告内容保存为TXT格式文本，停止词表可到网上搜索下载。需要的包：rJava，Rwordseg，wordcloud。 library(rJava) library(Rwordseg) library(wordcloud) 二、实验步骤： 1、读入文本数据 mydata<-read.csv("D:/test/R/report2015.txt", stringsAsFactors=FALSE,header=FALSE) 2、中文分词 txt<-segmentCN(as.character(mydata$V1)) 3、将列表转换为向量 txt.aslist<-unlist(txt) 4、词语统计 txt.freq<-table(txt.aslist) 5、频数排序 txt.result<-txt.freq[order(-txt.freq)] 6、画词云 wordcloud(names(txt.result),txt.result,random.order=FALSE) 7、取前100位画词云 wordcloud(names(text.result)[1:100],text.result[1:100],random.order=FALSE) 如果要去除停止词，可使用下面的步骤： 8、使用去停止词（1）导入停止词表 stopword<-read.csv('D:/test/R/stop-word.txt',stringsAsFactors=FALSE,header=FALSE) （2）将data.frame类型数据转换为向量型数据 stopword.v<-as.vector(stopword$V1) （3）去除词语统计中的停止词 word.pure<-setdiff(names(txt.result),stopword.v) word.pure为去除停止词的统计分析对象词表。（4）取出非停止词 txt.pure<-txt.result[word.pure] （5）画词云 wordcloud(names(txt.pure)[1:100],txt.pure[1:100],random.order=FALSE) 可以看出发展是核心，经济、改革、建设是重点。欢迎各位指点。
熟悉论坛请点击新手指南
下载说明
1、论坛支持迅雷和网际快车等p2p多线程软件下载，请在上面选择下载通道单击右健下载即可。 2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。 3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品，拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知，将积极的采取必要措施；同时，本站也将在技术手段和能力范围内，履行版权保护的注意义务。 (如有侵权，欢迎举报)

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明