人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛 › R语言分词问题

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: |Devil灬

2884 2

[问答] R语言分词问题 [推广有奖]

0关注
1粉丝

初中生

57%

还不是VIP/贵宾

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 82 点
帖子: 8
精华: 0
在线时间: 16 小时
注册时间: 2015-5-9
最后登录: 2016-4-9

楼主

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

分词时用这个语句：words = unlist(lapply(X = res,FUN = segmentCN))后，一些文件出现：“转换文件名时出了问题--名字太长了？”这个错误。求大神说下解决方法啊。
还有使用：
segmentCN("H:/123.txt")
test<- readLines("H:\\123.txt",encoding='UTF-8')
res=test[test != " "]
words = unlist(lapply(X = res,FUN = segmentCN))
word = lapply(X = words,FUN = strsplit," ")
v = table(unlist(word))
v = sort(v,deceasing=T)
head(v)
d = data.frame(word = names(v),freq = v)
write.csv(d, file="H:\\C.txt", row.names=FALSE)
进行分词和统计不管什么文件老是出现相同的结果，始终那么几个没见过的字进行的词频处理。是不是哪里出错了？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：R语言 segmentCN segment lapply apply

[问答] R语言分词问题 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[问答] R语言分词问题 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群