使用readlines函数,将text中的文字读入R中,然后完成如下几个小题:
1, 统计文件中出现的标点符号有多少种,并将标点符号使用编码函数重新编码。
然后使用table函数统计每种标点符号的个数,输出结果。
2, 标点符号统计完毕之后,清除读入数据中包含的所有标点符号;
3,抓取文本中出现的所有数字,并将其输出;(注意,一个数字不能拆开,比如14, 不能将其分解成1和4,要将连续的数字整体输出);
4,将出现频率最高的前20个字,重新编码为1,2,3,……,20,并使用hist函数画出对应的频数分布图像。(不包括停用词)
求出习近平总书记讲话中,出现最高的词组?
要求:
1.统计两个字的词组;使用jiebaR软件包对文本进行分词,画出词云图象;(请自己加载程序包,了解词云画图函数的使用!)
2.按照词组(两个字的)出现的频率(取前十位),使用重新编码函数,由高到低分别编码为A,B,……,J分别编码,使用hist函数画出对应的概率分布图。
3.按照词组出现的频率(取前十位),使用重新编码函数,由高到低分别编码为A,B,……,J分别编码。
4.将此问题中3中的结果使用pie函数,画出对应的饼图。


雷达卡





京公网安备 11010802022788号







