事件抽取技术是信息抽取领域一个重要的研究方向。近年来,在自动内容抽取等评测会议和工业界应用的推动下,事件抽取的研究得出了一系列理论和算法,并推出一些实用的系统。同时,这些研究大部分都是基于英文文本进行抽取,对于中文文本的事件抽取研究则不足。因果事件抽取是事件抽取的一个分支,相比于事件抽取其抽取难度更大,应用领域也更加细化,中文因果事件抽取更甚。在社会活动中,经济活动扮演着举足轻重的地位。财经领域含有大量的因果事件。针对以往中文因果事件抽取研究,发现目前的因果事件抽取方法主要是基于因果提示词模板和基于深度学习的方法,这些方法的不足之处在于:其一,抽取的方法都是基于通用中文文本,从而忽略财经领域文本的特点;其二,目前基于因果提示词模板的方法,使用的模板都是通用模板,模板规模较小;其三,基于深度学习的方法需要的数据量大,可解释性差。
随着数据挖掘、机器学习和自然语言处理等技术的迅速发展以及各类大数据资源的不断丰富,财经研究不仅仅局限于结构化数据,开始逐渐认识到半结构化数据和非结构化数据在财经研究中的重要作用。这些财经文本主要以新闻网页、研究报告、财经评论等形式出现,或来自于经济学家针对某个具体问题发表的个人见解,或是证券、银行等金融机构政策分析师对当前宏观经济形势、产业发展趋势而发布的研究报告。这些财经文本不仅传递信息,还发表观点,蕴含着社会舆论对经济运行和发展中所遇到关键问题的观点和态度,从而间接地反映了经济在消费、投资、进出口、就业和财政等方面的状况;同时这类信息的发布和传播方式快于传统的媒体报道,可以实时地反映经济现状。因此,财经文本在提供经济信息、做出经济预测、引导经济决策等方面都发挥着重要作用,对分析实时信息有着独特的优势。同时发现这些财经文本中含有大量的因果事件,这些因果事件直接地反映了一个经济事件对另一个经
济事件的影响程度,这对于经济决策具有一定的指导作用。
对于财经文本因果事件的抽取主要解决两个任务。一是通过因果提示词,发现句子结构特征,构建规则库进行因果部分抽取;二是通过定义事件实体的组成结构,结合句法分析、语义角色标注进行因果事件抽取。
目前,在医学领域,通过挖掘医学论坛评论文本,构建药物与患者服药后症状之间的因果关系模型,发现药物新的副作用;在应急领域,通过挖掘突发事件新闻报道文本,建立突发事件因果关系模型,便于对新发生突发事件做准确预测和态势评估。因果关系的抽取的第一步是因果句的识别,这些领域的现有研究成果一般只是给出常见的因果提示词模板,并没有考虑因果提示词在不同语境下以及不同领域下能否引导因果,因此因果句的召回率低且错误率高;对于句子中不存在常见因果提示词的因果句的发现,目前尚未有相关比较好的通用方案。在因果事件的抽取任务中这些领域一般只关注原因事件与结果事件(通常事件被简化表示为名词或名词短语)之间的因果关系。通过大量地阅读所收集的财经文本,发现在财经文本中,存在大量的包含多谓语成分的包含因果传递、并列原因(结果)事件的因果句,形成了大量的“一因多果”“多因一果”的因果句,这样就增加了抽取因果事件的难度。
在财经文本中,单个句子中三元组结构事件实体难以抽取,包含完整三元组结构的因果句较少。通过定义事件实体的组成结构,可以简化事件抽取难度。
因此,从财经文本中获取财经领域因果知识的重点和难点是:(1) 如何从财经文本中识别含有因果关系的因果句。(2) 如何对因果事件中的原因(结果)事件的组成结构进行定义,方便从因果句中抽取因果事件。