想做一个关于TXT文件中标引词抽取,并计算词频的过程:
1.抽取出txt格式文件中如下排版的中文文字中的标引词:
【文件序号】12G037199801003
【来源篇名】知识经济——科学学研究的一个新生长点
【英文篇名】Knowledge—based Economy———A New Growth Point of Scienology Research
【来源作者】张永谦
【文章类型】论文
【基金】
【期刊】科学学与科学技术管理
【第一机构】中国科学学与科技政策研究会
【机构名称】中国科学学与科技政策研究会
【学科分类】管理学
【第一作者】张永谦
【中图类号】G301
【年代卷期】1998,19(1):10
【标引词】知识经济/科学学/科技政策研究会
参考文献:
查询失败-----------------------------------------------------------------------
【文件序号】12G037199801004
【来源篇名】核能——高科技产业的前景(上)
【英文篇名】Nuclear Energy——The Future of High—tech Industry
【来源作者】彭士禄/陈书云
【文章类型】论文
【基金】
【期刊】科学学与科学技术管理
【第一机构】中国核工业总公司
【机构名称】中国核工业总公司
【学科分类】经济学
【第一作者】彭士禄
【中图类号】F407.23
【年代卷期】1998,19(1):11-14
【标引词】核能/能源/高科技产业/核电站
参考文献:
查询失败----------------------------------------------------------------------
【来源篇名】知识经济——科学学研究的一个新生长点
【英文篇名】Knowledge—based Economy———A New Growth Point of Scienology Research
【来源作者】张永谦
【文章类型】论文
【基金】
【期刊】科学学与科学技术管理
【第一机构】中国科学学与科技政策研究会
【机构名称】中国科学学与科技政策研究会
【学科分类】管理学
【第一作者】张永谦
【中图类号】G301
【年代卷期】1998,19(1):10
【标引词】知识经济/科学学/科技政策研究会
参考文献:
查询失败-----------------------------------------------------------------------
【文件序号】12G037199801004
【来源篇名】核能——高科技产业的前景(上)
【英文篇名】Nuclear Energy——The Future of High—tech Industry
【来源作者】彭士禄/陈书云
【文章类型】论文
【基金】
【期刊】科学学与科学技术管理
【第一机构】中国核工业总公司
【机构名称】中国核工业总公司
【学科分类】经济学
【第一作者】彭士禄
【中图类号】F407.23
【年代卷期】1998,19(1):11-14
【标引词】核能/能源/高科技产业/核电站
参考文献:
查询失败----------------------------------------------------------------------
…………有很多的类似的记录…………
2.计算抽取出的标引词分别出现的频次
不知道这样的要求怎么做?所以在此想请教大家具体怎么操作呢?请多多指教,万分感激!!
[此贴子已经被作者于2009-6-8 21:20:44编辑过]


雷达卡



京公网安备 11010802022788号







