2020/04/18
《知识图谱:方法、实践与应用》读书笔记
《No.17》第8章 知识问答(8.1~8.3)
8. 第8章 知识问答: 知识问答通过自然语言对话的形式帮助人们从知识库中获取知识,它不但是知识图谱的核心应用之一,也是自然语言处理的重要研究方向
8.1. 知识问答概述: 知识问答系统是一个拟人化的智能系统,它接收使用自然语言表达的问题,理解用户的意图,获取相关的知识,最终通过推理计算形成自然语言表达的答案并反馈给用户
8.1.1. 知识问答的基本要素 :问答系统应具备的四大要素:1)问题,是问答系统的输入,通常以问句的形式出现(问答题),也会采用选择题、多选题、列举答案题和填空题等形式;2)答案,是问答系统的输出,除了文本表示的答案(问答题或填空题),有时也需要输出一组答案(列举问答题)、候选答案的选择(选择题)、甚至是多媒体信息;3)智能体,是问答系统的执行者,需要理解问题的语义,掌握并使用知识库解答问题,并最终生成人可读的答案;4)知识库,存储了问答系统的知识,其形态可以是文本、数据库或知识图谱。
8.1.2. 知识问答的相关工作: 信息检索(Information Retrieval,IR)或搜索以关键词搜索为代表,帮助用户发现包含搜索关键词的网页或文档。近来的信息检索技术也在逐步利用语义信息,例如支持查询扩展、语义相似度匹配以及基于知识图谱的实体识别。
8.1.3. 知识问答应用场景: 1) 知识问答可以直接嵌入搜索引擎的结果页面,将问答的答案与搜索的结果列表同时展示。2) 知识问答技术可以应用于智能对话系统、智能客服或智能助理(Intelligent Agent). 3) 知识问答应用于阅读理解。
8.2. 知识问答的分类体系
8.2.1. 问题类型与答案类型: 在知识问答中,首先可以通过对问题的类型(Question Type)理解问答目标。问答系统可以针对问题类型,选择对应的知识库、处理逻辑来生成答案;综合分类体系的探索工作,本文从问答的功能出发,面向知识图谱问答的构建(即假定知识库的主题为知识图谱)整理出两种问题类型.1)事实性客观问题 2)主观深层次问题
8.2.2. 知识库类型: 从知识库的信息组织格式来看,知识库可以是基于文本表示,也可以采用其他组织形式。第一,文本类知识库利用纯文本承载知识,也是最常见的知识组织形式。这类知识库不但支持基于搜索的问答系统,也可以与基于知识图谱的结构化抽取技术结合,支持基于语义查询的解决方案。另外,常见问答对(FAQ)或社区问答也是知识问答(尤其是智能客服)最容易获取的知识,可以直接通过问题匹配帮助用户获取答案。第二,半结构化或结构化的知识库
8.2.3. 智能体类型:传统问答方法使用的主要技术包括关键词检索、文本蕴涵推理以及逻辑表达式等,深度学习方法使用的技术主要是LSTM、注意力模型与记忆网络(Memory Network)等
8.3. 知识问答系统
8.3.1. NLIDB:早期的问答系统: 20世纪六七十年代,早期的NLIDB(Natural Language Interface to Data Base)伴随着人工智能的研发逐步兴起,以1961年的 BASEBALL 系统和1972年的 LUNAR 系统(Woods 1973)为代表。BASEBALL 系统回答了有关一年内棒球比赛的问题。LUNAR 在阿波罗月球任务期间提供了岩石样本分析数据的界面。
8.3.2. IRQA:基于信息检索的问答系统: 基于信息检索的问答系统(Information Retrieval based Question-Answering System, IRQA)的核心思想是根据用户输入的问题,结合自然语言处理以及信息检索技术,在给定文档集合或者互联网网页中筛选出相关的文档,从结果文档内容抽取关键文本作为候选答案,最后对候选答案进行排序返回最优答案。
8.3.3. KBQA:基于知识库的问答系统: 基于知识库的问答系统(Knowledge-Based Question Answering,KBQA)特指使用基于知识图谱解答问题的问答系统。KBQA 实际上是20世纪七八十年代对 NLIDB 工作的延续,其中很多技术都借鉴和沿用了以前的研究成果。其中,主要的差异是采用了相对统一的基于 RDF 表示的知识图谱,并且把语义理解的结果映射到知识图谱的本体后生成SPARQL 查询解答问题。
8.3.4. CommunityQA/FAQ-QA:基于问答对匹配的问答系统:基于常见问答对(Frequently Asked Question,FAQ-QA)以及社区问答(Community Question Answering,CQA)都依赖搜索问答FAQ库(许多问答对<Q,A>的集合)来发现以前问过的类似问题,并将找到的问答对的答案返回给用户。
8.3.5. Hybrid QA Framework 混合问答系统框架:从结构化数据出发的 KBQA 侧重精准的问题理解和答案查询,但是结构化的知识库总是有限;从非结构化文本出发的 IRQA侧重于利用大量来自文本的答案,但是文本抽取存在精度问题且不容易支持复杂查询与推理。所以,在工业应用中,为了满足领域知识问答的体验,结合有限的高度结构化的领域数据与大量相关的文本领域知识,需要更通用的问答框架,以取长补短。
8.3.5.1. DeepQA:IRQA主导的混合框架: DeepQA综合 IRQA 和 KBQA 形成混合问答系统的架构图
8.3.5.2. QALD-Hybrid-QA:KBQA主导的混合框架: 在QALD-6启动的Hybrid QA 要求KBQA可以同时利用知识图谱数据和文本数据。
8.3.5.3. Frankenstein:问答系统的流水线架构:Frankenstein通过对60多种 KBQA 系统的研究,将 KBQA 分成基于四类核心模块的流水线


雷达卡


京公网安备 11010802022788号







