楼主: bensonwu
15278 41

[实际应用] RQDA(Qualitative Data Analysis)和文挖掘框架包tm结合进行文本挖掘 [推广有奖]

匿名网友
11
匿名网友  发表于 2010-7-28 14:31:29
dist(tt_s)
是什么函数?

12
bensonwu(未真实交易用户) 发表于 2010-7-28 15:13:32
猜猜下面的话是谁讲的(回复可见预测及答案):

必须重新认识“效率与公平”的关系,重温小平同志的教导,坚定不移的进行经济与政治体制的改革,让中国经济在市场框架之下稳步发展。不解开效率与公平这对矛盾的死结,不从**的初次与二次分配中解决问题中国就无法建立社会发展与稳定的基础,就无法继续前进。


本帖隐藏的内容

<SPAN
style="FONT-FAMILY: 宋体; FONT-SIZE: 14pt; mso-ascii-font-family: 'Times new roman'; mso-hansi-font-family: 'Times new roman'">>
predict(model, tt1)
     1
任志强
Levels: 潘石屹 任志强 王石
<SPAN

<SPAN
效率与公平(2010-07-27 18:50:18)最后一段

匿名网友
13
匿名网友  发表于 2010-7-28 23:34:05
还有其他资料没有
另外,对于分词,单独搞库,有没有简单方便的工具。

14
bensonwu(未真实交易用户) 发表于 2010-7-29 07:05:44
kuhasu 发表于 2010-7-28 23:34
还有其他资料没有
另外,对于分词,单独搞库,有没有简单方便的工具。
参考tm包的手册和介绍,其他都是我临时想的,没什么资料。

中文分词也可以用tm包内部的,但效果很差,因为它们主要用于英语和西班牙语的。想用其他中文分词可以自已单独做,如疱丁解牛分词、HTTPCWS、ICTCLAS等等,其中ICTCLAS效果最好,但它只有共享版不开源,而且只能免费用一年,相比之下我前面用的中文分词还算可以的,是开源的,除了人名、地名等大多效果不错,而且对繁体、英文都可处理。


根据博客或微博词频来对人员关系进行挖掘应该有一定的商业价值和学术价值,好象现在还没的搜索引擎和网站这样做的,有兴趣的完全可以按这个思路写篇论文。

匿名网友
15
匿名网友  发表于 2010-7-29 12:28:57
bensonwu 发表于 2010-7-29 07:05
kuhasu 发表于 2010-7-28 23:34
还有其他资料没有
另外,对于分词,单独搞库,有没有简单方便的工具。
参考tm包的手册和介绍,其他都是我临时想的,没什么资料。

中文分词也可以用tm包内部的,但效果很差,因为它们主要用于英语和西班牙语的。想用其他中文分词可以自已单独做,如疱丁解牛分词、HTTPCWS、ICTCLAS等等,其中ICTCLAS效果最好,但它只有共享版不开源,而且只能免费用一年,相比之下我前面用的中文分词还算可以的,是开源的,除了人名、地名等大多效果不错,而且对繁体、英文都可处理。


根据博客或微博词频来对人员关系进行挖掘应该有一定的商业价值和学术价值,好象现在还没的搜索引擎和网站这样做的,有兴趣的完全可以按这个思路写篇论文。
非常感谢!我主要是应用,已经不碰学术很多年了,尽管也一直时不时看看,学习下。
如果有这方面的资料,也请麻烦多多分享,或者发送我email。谢谢!

16
bensonwu(未真实交易用户) 发表于 2010-7-30 07:17:49
根据新浪微博的记录文字挖掘的娱乐圈关系图,关系近的人不一定认识,但性情、志趣相近,在一起一定有共同语言。

1.jpeg


经过因子分析后重新分类:
3.png     4.png

17
yuntianst(未真实交易用户) 发表于 2010-7-30 09:51:00
能否把分析过程和代码分享一下?

18
bensonwu(未真实交易用户) 发表于 2010-7-30 10:03:41
yuntianst 发表于 2010-7-30 09:51
能否把分析过程和代码分享一下?
http://rqda.r-forge.r-project.org/

Documentation
"Using RQDAtm and tm to do text-mining", Download the file (PDF) and example project.(July 2010)

匿名网友
19
匿名网友  发表于 2010-7-30 13:19:29
谢谢

20
yuntianst(未真实交易用户) 发表于 2010-8-2 09:26:56
我在运行下面语句时程序报错了,不知道有没有人遇见过这样的问题,应该怎样解决呢?谢谢。

> gg <- RQDA2tm("公安部回应")
错误于sprintf("select cid,fid, selfirst, selend,seltext from coding where status==1 and cid=%i",  :
  '%i'的格式不对;数值对象使用的格式应该是%f,%e,%g或%a
错误于dbGetQuery(.rqda$qdacon, sprintf("select cid,fid, selfirst, selend,seltext from coding where status==1 and cid=%i",  :
  在为'dbGetQuery'函数选择方法时评估'statement'参数出了错

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-27 09:25