| 所在主题: | |
| 文件名: Code.txt | |
| 资料下载链接地址: https://bbs.pinggu.org/a-1765210.html | |
| 附件大小: | |
|
利用Rwordseg包对抓到的网络评论分词,但是分出来的全是英文,中文被完全忽略,求助。
程序如下: library(tm) library(tmcn) library(Rwordseg) #Data.csv是数据 Data <- read.csv("Data.csv",head=TRUE,sep=",") Review <- unlist(Data$cont) Rev <- vector() #将每部电影所有观众的评价评价合并到一个变量中 times <- floor(length(Review)/2000) for (j in 1:times) { for(i in 1:2000) { Rev[j] <- paste(Rev[j],as.character(Review[[i+(j-1)*2000+1]])) } } #分词并统计词频 review <- apply(Rev,segmentCN) !问题在这,分词后出现的只有文字中的英文 review <- sapply(review,strsplit,"") result <- table(unlist(reviwe)) statistics <- rev(sort(result)) words <- data.frame(word=names(statistics), freq=statistics) words <- subset(words, nchar(as.character(words$word))>1 & words$freq>=100) 程序一直错,还是传附件吧 |
|
熟悉论坛请点击新手指南
|
|
| 下载说明 | |
|
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。 2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。 3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。 (如有侵权,欢迎举报) |
|
京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明