| 所在主题: | |
| 文件名: book.xlsx | |
| 资料下载链接地址: https://bbs.pinggu.org/a-2841476.html | |
| 附件大小: | |
|
用r做情绪识别时出现了问题,源代码如下:
library(rJava) library(Rwordseg) library(tm) library(NLP) setwd("d:\\第三次作业")#设置目录 comdata=read.csv("book.csv",header=T,stringsAsFactors=F) comdata$情绪标识=as.factor(comdata$情绪标识)#输出变量转为因子型、 installDict('财经金融词汇大全.scel',dictname = 'finwords') installDict('政治学词库大全.scel',dictname = 'finwords')#导入搜狗词库 com_dataTemp=gsub("[0-9#<>~a-z]","",comdata$评论)#删除字母和数字 com_dataseg=segmentCN(com_dataTemp)#分词 stopwords=read.csv("book.csv",stringsAsFactors=F)#去停词 removeStopWords=function(x,words)#逐行删除停用词函数 { ret=character(0)#空变量,用于存储词汇 index=1#循环起始点 it_max=length(x)#测量一行词汇的数量 while(index<=it_max) {#条件判断:如果不是停用词 if(length(words[words==x[index]])<1) {#把该词记录下来 ret=c(ret,x[index]) } index=index+1#下一个 } return(ret)#返回非停用词 } com_dataseg_clean=lapply(com_dataseg,removeStopWords,stopwords)#逐行调用函数removeStopWords com_corpus=Corpus(VectorSource(com_dataseg_clean)) inspect(com_corpus[1:3])#生成语料库 com_dtm=DocumentTermMatrix(com_corpus,control = list(wordLengths=c(1,Inf)))#把语料库转换成词矩阵 set.seed(111)#设置随机数 train_index=which(comdata$class=="train")#获得训练集位置 com_raw_train<-comdata[train_index,]#原始数据训练集 com_raw_test<-comdata[train_index,]#原始数据测试集 com_dtm_train<-com_dtm[train_index,] com_dtm_text<-com_dtm[train_index,]#分割词条文档矩阵 com_corpus_train<-com_corpus[train_index] com_corpus_train<-com_corpus[train_index]#分割语料 com_dict<-findFreqTerms(com_dtm_train,2) write.csv(com_dict,"com_dict.csv") # findFreqTerms函数查询超过一定频数的词条,例如查询出现两次以上的词条 com_dict.clean=read.csv("com_dict.csv",header=F,stringsAsFactors = F) com_dict.clean=as.matrix(com_dict.clean) com_dict.clean=as.vector(com_dict.clean)#对于词典进行人工干预,筛选感情词 com.dtm=DocumentTermMatrix(com_corpus) com.dtm=as.matrix(com.dtm) com.dtm.clean=com.dtm[,com_dict.clean] com_train<-com.dtm.clean[train_index,] 倒数第二句无法运行,会得到以下回复: Error in com.dtm[, com_dict.clean] : subscript out of bounds 这是为什么呢 |
|
熟悉论坛请点击新手指南
|
|
| 下载说明 | |
|
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。 2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。 3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。 (如有侵权,欢迎举报) |
|
京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明