[分享][原创]用R做中文文本挖掘简单教程，含程序 [推广有奖]

11楼

aku2008 发表于 2009-6-8 14:59:00

想做一个关于TXT文件中标引词抽取，并计算词频的过程：
1.抽取出txt格式文件中如下排版的中文文字中的标引词：
【文件序号】12G037199801003
【来源篇名】知识经济——科学学研究的一个新生长点
【英文篇名】Knowledge—based Economy———A New Growth Point of Scienology Research
【来源作者】张永谦
【文章类型】论文
【基金】
【期刊】科学学与科学技术管理
【第一机构】中国科学学与科技政策研究会
【机构名称】中国科学学与科技政策研究会
【学科分类】管理学
【第一作者】张永谦
【中图类号】G301
【年代卷期】1998,19(1):10
【标引词】知识经济/科学学/科技政策研究会
参考文献：
查询失败-----------------------------------------------------------------------
【文件序号】12G037199801004
【来源篇名】核能——高科技产业的前景（上）
【英文篇名】Nuclear Energy——The Future of High—tech Industry
【来源作者】彭士禄/陈书云
【文章类型】论文
【基金】
【期刊】科学学与科学技术管理
【第一机构】中国核工业总公司
【机构名称】中国核工业总公司
【学科分类】经济学
【第一作者】彭士禄
【中图类号】F407.23
【年代卷期】1998,19(1):11-14
【标引词】核能/能源/高科技产业/核电站
参考文献：
查询失败----------------------------------------------------------------------
…………有很多的类似的记录…………
2.计算抽取出的标引词分别出现的频次
不知道这样的要求怎么做？所以在此想请教大家具体怎么操作呢？请多多指教，万分感激！！