1347 3

[作业] R语言数据统计 [推广有奖]

  • 0关注
  • 0粉丝

大专生

60%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
1.0500
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
440 点
帖子
42
精华
0
在线时间
43 小时
注册时间
2021-4-10
最后登录
2023-3-22

楼主
努力学习的学渣儿 发表于 2021-6-4 01:17:55 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

使用readlines函数,将text中的文字读入R中,然后完成如下几个小题:

1, 统计文件中出现的标点符号有多少种,并将标点符号使用编码函数重新编码。

然后使用table函数统计每种标点符号的个数,输出结果。

2, 标点符号统计完毕之后,清除读入数据中包含的所有标点符号;

3,抓取文本中出现的所有数字,并将其输出;(注意,一个数字不能拆开,比如14, 不能将其分解成1和4,要将连续的数字整体输出);

4,将出现频率最高的前20个字,重新编码为1,2,3,……,20,并使用hist函数画出对应的频数分布图像。(不包括停用词)

求出习近平总书记讲话中,出现最高的词组?

要求:

1.统计两个字的词组;使用jiebaR软件包对文本进行分词,画出词云图象;(请自己加载程序包,了解词云画图函数的使用!)

2.按照词组(两个字的)出现的频率(取前十位),使用重新编码函数,由高到低分别编码为A,B,……,J分别编码,使用hist函数画出对应的概率分布图。

3.按照词组出现的频率(取前十位),使用重新编码函数,由高到低分别编码为A,B,……,J分别编码。

4.将此问题中3中的结果使用pie函数,画出对应的饼图。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据统计 R语言 jiebaR Lines Table

沙发
llb_321 在职认证  发表于 2021-6-4 10:46:28
文本挖掘的题,不算难。
先熟悉一下jiebaR的操作方式,设定好stop_words.utf8,user.dict.utf8两个文件,多试几次分词操作,选择最合适的分词结果。
您接触R有段时间了,其余的提取、统计等操作应没什么问题的。
努力吧,世界上没什么学渣。

藤椅
努力学习的学渣儿 发表于 2021-6-4 19:12:12
llb_321 发表于 2021-6-4 10:46
文本挖掘的题,不算难。
先熟悉一下jiebaR的操作方式,设定好stop_words.utf8,user.dict.utf8两个文件, ...
收到!明白!立马研究!

板凳
努力学习的学渣儿 发表于 2021-6-4 19:12:45
llb_321 发表于 2021-6-4 10:46
文本挖掘的题,不算难。
先熟悉一下jiebaR的操作方式,设定好stop_words.utf8,user.dict.utf8两个文件, ...
谢谢!!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-2-14 23:42