楼主: bensonwu
26249 46

[分享][原创]用R做中文文本挖掘简单教程,含程序   [推广有奖]

11
aku2008 发表于 2009-6-8 14:59:00

想做一个关于TXT文件中标引词抽取,并计算词频的过程:
1.抽取出txt格式文件中如下排版的中文文字中的标引词:
【文件序号】12G037199801003
【来源篇名】知识经济——科学学研究的一个新生长点
【英文篇名】Knowledge—based Economy———A New Growth Point of Scienology Research
【来源作者】张永谦
【文章类型】论文
【基金】
【期刊】科学学与科学技术管理
【第一机构】中国科学学与科技政策研究会
【机构名称】中国科学学与科技政策研究会
【学科分类】管理学
【第一作者】张永谦
【中图类号】G301
【年代卷期】1998,19(1):10
【标引词】知识经济/科学学/科技政策研究会
参考文献:
查询失败-----------------------------------------------------------------------
【文件序号】12G037199801004
【来源篇名】核能——高科技产业的前景(上)
【英文篇名】Nuclear Energy——The Future of High—tech Industry
【来源作者】彭士禄/陈书云
【文章类型】论文
【基金】
【期刊】科学学与科学技术管理
【第一机构】中国核工业总公司
【机构名称】中国核工业总公司
【学科分类】经济学
【第一作者】彭士禄
【中图类号】F407.23
【年代卷期】1998,19(1):11-14
【标引词】核能/能源/高科技产业/核电站
参考文献:
查询失败----------------------------------------------------------------------
…………有很多的类似的记录…………
2.计算抽取出的标引词分别出现的频次
不知道这样的要求怎么做?所以在此想请教大家具体怎么操作呢?请多多指教,万分感激!!

12
urdaddy 发表于 2009-7-10 12:21:28
好东西~收下了~顶一个

13
dybwall1234 发表于 2010-3-7 23:39:53
安装spss的文本挖掘模块不成功 r真能中文挖掘很强大啊 mark

14
gaoshun808 发表于 2010-7-5 23:52:15
支持,..........................

15
爱萌 发表于 2010-7-8 20:32:48
东西是好东西
最恨对我说谎或欺骗我的人

16
geckoegg 在职认证  发表于 2010-10-25 15:27:08
比较详细,但是有些图片看不到

17
king77531 发表于 2010-12-15 11:36:02
文本挖掘!! 還不賴最近正有興趣呢! 感謝了

18
tangyanye 发表于 2011-7-6 13:28:18
已经很实用了

19
小酒儿 发表于 2012-6-19 14:54:15

20
fzzl_1989 企业认证  发表于 2012-11-9 00:35:52
谢谢楼主~~~~~~

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-31 03:39