网页信息抽取是将网页作为信息源的一类信息抽取,就是从半结构化的Web文档中抽取数据。其核心是将分散Internet上的半结构化的HTML页面中的隐含的信息点抽取出来,并以更为结构化、语义更为清晰的形式表示,为用户在Web中查询数据、应用程序直接利用Web中的数据提供便利。
互联网提供了一个巨大的信息源。这种信息源往往是半结构化的,并且中间夹杂着结构化和自由文本。网上的信息还是动态的,包含超链接,都以不同的形式出现。
1.Web信息抽取的内容一般可以分为几个方面:
命名实体的抽取、与模板有关的内容信息抽取、各个实体之间关系的抽取和预置事件的信息抽取。
信息抽取的方法主要可以分为以下两类:一类是基于层次结构的信息抽取归纳方法,另一类是基于概念模型的多记录信息抽取方。
Web信息抽取工作主要包装器(Wrapper)来完成?。包装器是一种软件过程,这个过程使用已经定义好的信息抽取规则,将网络中Web页面的信息数据抽取出来,转换为用特定的格式描述的信息。一个包装器一般针对某一种数据源中的一类页面。包装器运用规则执行程序对实际要抽取的数据源进行抽取。
2.抽取过程一般包括以下几个步骤 :
(1)将Web网页进行预处理。预处理的目的是将半结构化HTML页面去掉无用的信息以及对不规则的HTML标识进行修正,为下一步标记信息做准备。
(2)用一组信息模式描述所需要抽取的信息。通常可以针对某一领域的信息特征预定义好一系列的信息模式,存放在模式库中供用户选用。
(3)对文本进行合理的词法、句法及语义分析,通常包括识别特定的名词短语和动词短语。
(4)使用模式匹配方法识别指定的信息模式的各个部分。
(5)进行上下文分析和推理,确定信息的最终形式。
(6)将结果输出成结构化的描述型式以便由网络集成系统进行查询分析。
关于网页信息抽取技术的分类方式有多种:依据自动化不同程度可以将网页信息抽取分为人工方式、半自动化方式和全自动化方式三大类信息抽取。基于自然语言处理(NLPIR)方式的信息抽取是目前使用比较普遍的,效果也是比较好的方法。
基于自然语言处理(NLPIR)方式方法的抽取过程一般可归为:语音、词、词性语法分析、语义标注、专有对象的识别(如人物,公司)和抽取规则。如果Web页中包含大量文本(特别针对于合乎文法的文本)比较适用于这类方法,它在一定程度上使用了传统自然语言处理技术。把网页中的文本部分分割成多个句子,对每一个句子的句子成分进行标注,然后将标注好的句子语法结构和事先定制的语言模式(规则)匹配,获得句子的内容,其实就是利用句子的结构、短语和句子间联系建立基于语法和语义的抽取规则。从而实现信息抽取。规则可以人工制定,也可从人工标记的语义库中主动学习得到。
灵玖NLPIR网页信息抽取技术在数据抽取、集成方面,重点关注效率、适应性、以及维护问题,这三大问题都是元信息抽取技术在工程应用中必须解决的关键性问题。