- 阅读权限
- 255
- 威望
- 0 级
- 论坛币
- 139 个
- 通用积分
- 0.1200
- 学术水平
- 0 点
- 热心指数
- 0 点
- 信用等级
- 0 点
- 经验
- 201 点
- 帖子
- 22
- 精华
- 0
- 在线时间
- 58 小时
- 注册时间
- 2016-3-8
- 最后登录
- 2023-7-20
大专生
还不是VIP/贵宾
- 威望
- 0 级
- 论坛币
- 139 个
- 通用积分
- 0.1200
- 学术水平
- 0 点
- 热心指数
- 0 点
- 信用等级
- 0 点
- 经验
- 201 点
- 帖子
- 22
- 精华
- 0
- 在线时间
- 58 小时
- 注册时间
- 2016-3-8
- 最后登录
- 2023-7-20
| 开心 2023-7-20 00:52:27 |
---|
签到天数: 71 天 连续签到: 1 天 [LV.6]常住居民II
|
27论坛币
利用jiebaR切词,然后想统计词频出了问题,下面是代码:
library(jiebaR)
seg=qseg <= "F://jiebar.txt"
seg=seg[nchar(seg)>1]
seg=table(seg)
seg=seg[!grep('[0-9]+',names(seg))]
length(seg)
结果是为0 没有结果
又改了下代码,
f <- scan('F://jiebar.txt',sep='\n',what='',encoding="UTF-8")
seg <- qseg[f] #使用qseg类型分词,并把结果保存到对象seg中
到了这一步就出错了
Error in file.exists(code) : 转换文件名时出了问题--名字太长了?
望帮助,帮改或教我如何正确统计词频,谢谢
附件:
jiebar.txt
(5.19 MB)
|
|