楼主: bensonwu
35708 57

[R] R语言中文文本挖掘小例子及程序   [推广有奖]

  • 1关注
  • 26粉丝

已卖:4041份资源

博士生

11%

还不是VIP/贵宾

-

威望
0
论坛币
23136 个
通用积分
686.4277
学术水平
72 点
热心指数
58 点
信用等级
35 点
经验
3329 点
帖子
182
精华
1
在线时间
66 小时
注册时间
2007-9-24
最后登录
2024-11-27

楼主
bensonwu 发表于 2010-7-8 17:32:00 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

代码解释+代码应用案例



1、代码解释



中文分词:
因为TM和openNLP对中文支持不好,所以这里的分词软件采用imdict-chinese-analyzer它是中科院张华平博士开发的一款基于HHMM的智能分词软件
分词效果:



  1. zw <- c("如果你聽到某人說他使用某軟體,然后看看效果,有些美中不足,那就叫《星光灿烂》吧!thus do not have the texts already
  2.           stored on a hard disk, and want to save the text documents to disk")
复制代码


1、去停用词:
  1. zwfc(zw,zj1)
  2. [1] "聽  某人  說  使用  軟  體  看看  效果  美  中  不足  星光  灿烂  thu  text  alreadi  store  hard  disk  save  text  document  
  3. disk  time: 0.109 s"
复制代码

2、不去停用词:
  1. zwfc(zw,zj1)
  2. [1] "如果  你  聽  到  某人  說  他  使用  某  軟  體  ,  然后  看看  效果  ,  有些  美  中  不足  ,  那  就  叫  ,  星光  灿烂  ,  吧  
  3. ,  thu  do  not  have  the  text  alreadi  store  on  a  hard  disk  ,  and  want  to  save  the  text  document  to  disk  time: 0.0
  4. s"
复制代码


中文分词对人名地名分解的仍然不好,大多分解成单字。



2、案例



下面是个简单例子:
一、安装TM和rJava包,并到SUN网站安装JAVA运行环境软件包。
二、将下面的压缩包解压到c盘根目录。
三、在R中运行软件。


结果:

共五个文件
$FileList
[1] "c:/text/荷兰队长上演惊天远射.txt"      
[2] "c:/text/技术化转型路上德国人受重创.txt"
[3] "c:/text/普约尔贡献头球绝杀.txt"        
[4] "c:/text/四大天王沉沦各有难念的经.txt"  
[5] "c:/text/再战德班德西命运迥异.txt"      
-----------------------------------------
1、找出最少出现过5次的词条  ##

  1. > findFreqTerms(dtm, 5)
  2. [1] "乌拉圭" "西班牙"
复制代码

--------------------------------------------
2、找出与"西班牙"相关度至少达0.8的词条  ###

  1. > findAssocs(dtm, "西班牙", 0.8)
  2. 西班牙 德意志
  3.   1.00   0.92
复制代码


--------------------------------------------
去掉较少词频(40%以下)的词条后词条-文件矩阵

  1. inspect(removeSparseTerms(dtm, 0.4))
  2. A document-term matrix (5 documents, 5 terms)
  3. Non-/sparse entries: 22/3
  4. Sparsity           : 12%
  5. Maximal term length: 5
  6. Weighting          : term frequency (tf)
  7.     Terms
  8. Docs 0.0 time: 半决赛 世界杯 西班牙
  9.    1   0     1      1      2      0
  10.    2   1     1      1      1      5
  11.    3   1     1      1      2      4
  12.    4   1     1      0      3      1
  13.    5   1     1      1      1      7
复制代码


----------------------------------------
###  词典  ###  它通常用来表示文本挖掘有关词条

  1. A document-term matrix (5 documents, 3 terms)
  2. Non-/sparse entries: 13/2
  3. Sparsity           : 13%
  4. Maximal term length: 3
  5. Weighting          : term frequency (tf)
  6.     Terms
  7. Docs 半决赛 世界杯 西班牙
  8.    1      1      2      0
  9.    2      1      1      5
  10.    3      1      2      4
  11.    4      0      3      1
  12.    5      1      1      7
复制代码


-----------------------------------------
##  根据词条频率对文件进行聚类分析  ##

1.jpeg

4.jpeg

###   主成分分析  ###

2.jpeg

3.jpeg


相关程序和文本:

文本挖掘.rar (4.26 MB, 需要: 50 个论坛币) 本附件包括:
  • 文本挖掘.txt
  • 文本挖掘.R
  • hzfc.jar

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:文本挖掘 R语言 weighting Frequency documents 程序 挖掘 中文 文本 例子

回帖推荐

bensonwu 发表于8楼  查看完整内容

7# 634553193 一、安装tm和rJava包(在R的网站上),并到SUN网站安装JAVA运行环境软件包。 二、将下载的压缩包解压到c盘根目录。 三、在R中运行软件(是压缩包内*.R的文件,可打开逐条依次运行,也可直接运行该文件)。

bensonwu 发表于4楼  查看完整内容

找出与"西班牙"相关度至少达0.8的词条 ### > findAssocs(dtm, "西班牙", 0.8) 西班牙 德意志 1.00 0.92 -------------------------------------------- 去掉较少词频(40%以下)的词条后词条-文件矩阵 inspect(removeSparseTerms(dtm, 0.4)) A document-term matrix (5 documents, 5 terms) Non-/sparse entries: 22/3 Sparsity : 12% Maximal term length: 5 Weighting : term frequency ( ...
已有 4 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
niuniuyiwan + 5 + 5 + 5 精彩帖子
xddlovejiao1314 + 30 + 10 + 1 + 1 + 1 精彩帖子,欢迎继续发表此类帖子
ryusukekenji + 1 精彩帖子
ruiqwy + 100 + 5 精彩帖子

总评分: 经验 + 30  论坛币 + 110  学术水平 + 12  热心指数 + 6  信用等级 + 6   查看全部评分

本帖被以下文库推荐

沙发
OwenDelphi(未真实交易用户) 发表于 2010-7-8 17:53:17
50币?太多了,5个就好了

藤椅
bensonwu(未真实交易用户) 发表于 2010-7-8 21:07:57
现在对 html 网页的解析不太明白,如果有好的方法可以交流一下。

板凳
bensonwu(未真实交易用户) 发表于 2010-7-12 22:28:32
找出与"西班牙"相关度至少达0.8的词条  ###
> findAssocs(dtm, "西班牙", 0.8)
西班牙 德意志
  1.00   0.92
--------------------------------------------
去掉较少词频(40%以下)的词条后词条-文件矩阵
inspect(removeSparseTerms(dtm, 0.4))
A document-term matrix (5 documents, 5 terms)
Non-/sparse entries: 22/3
Sparsity           : 12%
Maximal term length: 5
Weighting          : term frequency (tf)
    Terms
Docs 0.0 time: 半决赛 世界杯 西班牙
   1   0     1      1      2      0
   2   1     1      1      1      5
   3   1     1      1      2      4
   4   1     1      0      3      1
   5   1     1      1      1      7
$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$

比章鱼哥如何?

报纸
andy_chau(真实交易用户) 发表于 2010-7-30 15:45:49
这也太贵了。。。。。。但愿能用

地板
634553193(真实交易用户) 发表于 2010-9-16 11:07:49
大侠 我下载了 怎么用不了 没有安装包啊 请指教

7
634553193(真实交易用户) 发表于 2010-9-16 11:12:01
1# bensonwu
下载了你的 文本挖掘软件 怎么没有安装包 用不了 请指教

8
bensonwu(未真实交易用户) 发表于 2010-9-16 12:25:24
7# 634553193

一、安装tm和rJava包(在R的网站上),并到SUN网站安装JAVA运行环境软件包。
二、将下载的压缩包解压到c盘根目录。
三、在R中运行软件(是压缩包内*.R的文件,可打开逐条依次运行,也可直接运行该文件)。

9
guyiqing(未真实交易用户) 发表于 2010-11-24 23:44:00
谢谢分享 看看

10
mysas1985(未真实交易用户) 发表于 2011-5-16 22:27:04
这个是个好东西啊,支持

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-28 23:55