摘要:当今,互联网技术发展的越来越迅速,各种信息层出不穷,如何能够在众多信息中提取出所需要的信息越来越成为大家关注的热点问题。学者们进行学术交流的形式不仅仅局限在书面形式上,更多的学术信息通过网络以网页的形式进行散播,关于学术研究的专业数据库应运而生。从信息量巨大的数据库中得到用户想要的信息十分的困难,对于文献资料的深层次处理,知识的再发现,有些还需要人为手动的去操作,这给科研人员带来了极大的不便。针对上述问题,本文展开了对科研文献的自然语言处理的研究。 科研文献反映了人们的科技水平、科学研究与发现,代表了人们在一定时期的知识水平,体现了专业领域的发展特点,是研究人员获取知识的必不可少的资源。根据科研人员的不同需求,对科研文献进行相关的信息抽取,得到更加有意义的数据,这对于科研学者的学术研究帮助很大。 本文研究了Web网页采集的主要关键技术,并设计出一套C/S模式的网页采集工具,对某外文文献数据库文献所在的网页进行爬取操作。通过研究Web信息抽取的几种技术,详细分析Web网页HTML的结构特征,利用同一网络数据库中网页结构的相似性,设计出一套Web信息提取模板,对文献的重要关键信息进行提取,最终证明模板的准确率比较高。得到文献的元数据后,接下来进行数据的统计分析,首先深入学习常见的文本聚类算法,结合本文文本的特点,确定本文的聚类算法。在对文本进行词干处理等预处理后,建立文本的特征空间向量进行聚类分析,整个过程分为三个步骤:特征词的选取与加权,相似度的计算,聚类算法的选取实现。特征词的选取与加权是核心问题,本文在特征词加权时,总结前人经验,提出基于位置的特征词加权方式。最后对聚类后的分类信息进行统计,得出供科研学者学术研究的参考数据。 本课题对科研文献的自然语言处理,这对科研工作者的学术研究有很高的参考价值,为科研工作者文献写作、了解最新科研动态提供了全新的解决方案。
原文链接:http://d.wanfangdata.com.cn/Thesis/Y2569837
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)