楼主: woshizsz
4405 3

[问答] 【Windows 7旗舰 R 3-1-3】 使用segmentCN函数后只有文章中的英文被分出 [推广有奖]

  • 0关注
  • 0粉丝

已卖:412份资源

本科生

32%

还不是VIP/贵宾

-

威望
0
论坛币
518 个
通用积分
27.1227
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
1608 点
帖子
54
精华
0
在线时间
89 小时
注册时间
2012-9-15
最后登录
2025-9-20

楼主
woshizsz 发表于 2015-4-6 23:35:47 |AI写论文
10论坛币
利用Rwordseg包对抓到的网络评论分词,但是分出来的全是英文,中文被完全忽略,求助。

程序如下:
library(tm)
library(tmcn)
library(Rwordseg)

#Data.csv是数据
Data <- read.csv("Data.csv",head=TRUE,sep=",")
Review <- unlist(Data$cont)
Rev <- vector()

#将每部电影所有观众的评价评价合并到一个变量中
times <- floor(length(Review)/2000)
for (j in 1:times) {
  for(i in 1:2000) {
    Rev[j] <- paste(Rev[j],as.character(Review[[i+(j-1)*2000+1]]))
  }
}

#分词并统计词频
review <- apply(Rev,segmentCN) !问题在这,分词后出现的只有文字中的英文
review <- sapply(review,strsplit,"")
result <- table(unlist(reviwe))
statistics <- rev(sort(result))
words <- data.frame(word=names(statistics), freq=statistics)
words <- subset(words, nchar(as.character(words$word))>1 & words$freq>=100)  
程序一直错,还是传附件吧


Data.xlsx (99.33 MB)
Code.txt (581 Bytes)

关键词:segmentCN segment Windows Window wind Windows 英文 文章 旗舰

沙发
woshizsz 发表于 2015-4-6 23:42:46
不知为何程序乱了.....


library(tm)
library(tmcn)
library(Rwordseg)

Data <- read.csv("Data.csv",head=TRUE,sep=",")
Review <- unlist(Data$cont)
Rev <- vector()

times <- floor(length(Review)/2000)
for (j in 1:times) {
  for(i in 1:2000) {
    Rev[j] <- paste(Rev[j],as.character(Review[[i+(j-1)*2000+1]]))
  }
}

review <- apply(Rev,segmentCN)
review <- sapply(review,strsplit,"")
result <- table(unlist(reviwe))
statistics <- rev(sort(result))
words <- data.frame(word=names(statistics), freq=statistics)
words <- subset(words, nchar(as.character(words$word))>1 & words$freq>=100)  

藤椅
BIG钊钊 学生认证  发表于 2015-4-7 00:41:44
               

板凳
woshizsz 发表于 2015-4-8 22:39:19
BIG钊钊 发表于 2015-4-7 00:41
不知兄台可有解决的办法??

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-30 09:39