楼主: shuaibukeyan
3861 10

[问答] 新人请教一下如何对分好词的文本进行词频统计 [推广有奖]

  • 0关注
  • 0粉丝

小学生

14%

还不是VIP/贵宾

-

威望
0
论坛币
16 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
46 点
帖子
3
精华
0
在线时间
6 小时
注册时间
2015-3-20
最后登录
2017-5-14

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我用R已经对一段中文文本进行了分词(用空格分词),并保存为TXT格式文本格式如“你 是谁 你 做 什么...”
求解如何用R对这个TXT文本进行词频统计?
我刚学R不久,希望讲解的大神能详细一点


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:txt格式 txt 如何用 如何 统计

沙发
jiangbeilu 学生认证  发表于 2016-5-19 09:36:38 |只看作者 |坛友微信交流群
用table函数就可以了

使用道具

藤椅
jiangbeilu 学生认证  发表于 2016-5-19 09:40:22 |只看作者 |坛友微信交流群
代码如下:
  1. x <- "你 是 谁 我 不 认识 你"
  2. x2 <- unlist(strsplit(x," "))
  3. table(x2)
复制代码

效果如下:

分词统计.png (5.65 KB)

分词统计.png

使用道具

板凳
shuaibukeyan 发表于 2016-5-19 10:14:23 |只看作者 |坛友微信交流群
jiangbeilu 发表于 2016-5-19 09:40
代码如下:

效果如下:
感谢你的回答。

昨晚研究了一晚上,用Rwordseg包解决了。

我先前主要的问题是不知用什么方法读取这个分词好的TXT文件,老是显示读取错误

使用道具

报纸
Chengweing 发表于 2016-5-19 11:35:40 |只看作者 |坛友微信交流群
楼主是怎么做的分词?请教

使用道具

地板
shuaibukeyan 发表于 2016-5-19 21:09:50 |只看作者 |坛友微信交流群
Chengweing 发表于 2016-5-19 11:35
楼主是怎么做的分词?请教
我用的是jiebaR的包进行分词,另外用Rwordseg包也是可以做分词的

使用道具

7
Chengweing 发表于 2016-5-20 11:14:47 |只看作者 |坛友微信交流群
shuaibukeyan 发表于 2016-5-19 21:09
我用的是jiebaR的包进行分词,另外用Rwordseg包也是可以做分词的
多谢!

使用道具

8
脱脱杨 发表于 2016-9-26 14:43:59 |只看作者 |坛友微信交流群
我想统计PDF格式的论文,用啥软件?

使用道具

9
glasspie 发表于 2018-11-22 12:05:06 |只看作者 |坛友微信交流群
菜鸟一枚。尽管此贴已经是2年多前的,但还是记录下我的处理结果:
Library (jiebaR)
wk=worker()
text=readLines("D:\\**.txt",encoding=”UTF-8”)
text
此处即可直接看到分词后的结果,而不是以新建一个text文件保存的结果
freq(wk[text])
此处可以看到分词后的词频数
已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
admin_kefu + 20 + 2 + 2 + 2 热心帮助其他会员

总评分: 论坛币 + 20  学术水平 + 2  热心指数 + 2  信用等级 + 2   查看全部评分

使用道具

10
crossover662 发表于 2021-3-5 12:49:29 |只看作者 |坛友微信交流群
shuaibukeyan 发表于 2016-5-19 10:14
感谢你的回答。

昨晚研究了一晚上,用Rwordseg包解决了。
请问楼主可以分享一下用Rwordseg包怎么对大批量已经分词好了的txt文件做特定词的词频统计并输出吗?感谢!

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-24 02:38