2020/04/19 打卡
《知识图谱:方法、实践与应用》读书笔记
《No.18》第8章 知识问答(8.4~8.5)
8.4. 知识问答的评价方法
8.4.1. 问答系统的评价指标
8.4.1.1. 功能评价指标:问答系统通常可以通过一组预定的测试问题集以及一组预定的维度来评价。问答系统的功能评价重点关注返回的答案,正确的答案应当同时具备正确度及完备度,正确但内容不完整的答案被称为不准确答案,没有足够证据及论证表明答案与问题相关性的则是无支撑答案,当答案与问题完全无关时,意味着答案是错误的。
8.4.1.1.1. (1)正确性。答案是否正确地回答了问题,例如问美国总统是谁,回答“女克林顿”就错了。
8.4.1.1.2. (2)精确度。答案是否缺失信息,例如问美国总统是谁,回答“布什”可能存在二义性,到底是老布什,还是小布什;答案中是否包含了多余的信息,同样的问题,“特朗普在纽约州出生”就包含了多余的信息。
8.4.1.1.3. (3)完整性。如果答案是一个列表,应当返回问题要求的所有答案。例如,列举美国总统,应该把所有满足条件的人都列举出来。
8.4.1.1.4. (4)可解释性。在给出答案的同时,也给出引文或证明说明答案与问题的关联。根据TREC的测试结果,考虑与未考虑文章支持度的测试结果差距可达十几个百分点。
8.4.1.1.5. (5)用户友好性。答案质量由人工评分,很多非事实性问题并非一个唯一的答案,所以需要人工判定答案的质量。如果答案被认为没错就按质量打分,Fair为1分、Good为2分、Excellent为3分,如果答不上来或答错则算零分。
8.4.1.1.6. (6)额外的评价维度。
8.4.1.2. 性能评价指标
8.4.1.3. (1)问答系统的响应时间(Response Time)。问答系统对用户输入或者请求做出反应的时间。问答系统的响应时间是评价系统性能的一个非常重要的指标,如果响应时间过长,会使系统的可用性很低。一般问答系统的响应时间应控制在1s以内。
8.4.1.4. (2)问答系统的故障率(Error Rate)。在限定时间内给出答案即可,不考虑答案是否正确。系统返回错误或者系统运行过程中发生错误数的统计。
8.4.2. 问答系统的评价数据集
8.4.2.1. 1.TREC QA:TREC QA是美国标准计量局在1999—2007年针对问答系统设定的年度评价体系,本文关注其问答的核心任务(MAIN TASK)。
8.4.2.2. 2.TREC LIVE QA:TREC LIVE QA也[37]是美国标准计量局在2015—2107年从更真实的网络问答出发,主要面向 CQA 社区问答解决方案的评价体系。
8.4.2.3. 3.QALD:QALD是指2011—2017年的链接数据的问答系统评测(Question Answering on Linked Data),为自然语言问题转化为可用的SPARQL查询以及基于语义万维网标准的知识推理提供了一系列的评价体系和测试数据集
8.4.2.4. 4.SQuAD:评价端到端的问答系统解决方案,SQuAD是斯坦福大学推出的一个大规模阅读理解数据集,由众多维基百科文章中的众包工作者提出的问题构成,每个问题的答案都是相应阅读段落的一段文字或跨度。
8.4.2.5. 5.Quora QA:评价问题相似度计算,Quora于2017年在Kaggle发布的数据集包含约40万个问题对,每个问题包含两个问题的 ID 和原始文本,另外还有一个数字标记这两个问题是否等价,即对应到同一个意图上。这个数据集主要用于验证社区问答或 FAQ 问答的语义相似度计算算法,目前在Kaggle 上的竞赛结果最优者的 Logloss 已经达到0.11。
8.4.2.6. 6.SemEval:词义消歧评测,SemEval 是由 ACL 词汇与语义小组组织的词汇与语义计算领域的国际权威技术竞赛。从1998年开始举办,竞赛包括多方面不同的词汇语义评测任务,如文本语义相似度计算、推特语义分析、空间角色标注、组合名词的自由复述、文本蕴涵识别、多语种的词义消歧等。
8.5. KBQA前沿技术
8.5.1. KBQA面临的挑战: KBQA 中一个简化的“问题→答案”映射过程,自然语言问题在关联知识库之前,需要转换成结构化查询,利用查询从知识图谱中找到答案后,还需要考虑一个自然语言答案生成的过程。
8.5.2. 基于模板的方法: 基于模板(Template)或模式(Pattern)的问答系统定义了一组带变量的模板,直接匹配问题文本形成查询表达式。这样简化了问题分析的步骤,并且通过预制的查询模板替代了本体映射。
8.5.3. 基于语义解析的方法:基于语义解析的方法是指通过对自然语言查询的语法分析,将查询转换成逻辑表达式,然后利用知识库的语义信息将逻辑表达式转换成知识库查询,最终通过查询知识库得到查询结果。
8.5.4. 基于深度学习的传统问答模块优化: 基于深度学习的知识问答主要有两个方向,分别是利用深度学习对传统问答方法进行模块级的改进和基于深度学习的端到端问答模型。深度学习可以直接用于改进传统问答流程的各个模块,包括语义解析、实体识别、意图分类和实体消歧等。
8.5.5. 基于深度学习的端到端问答模型:端到端的深度学习问答模型将问题和知识库中的信息均转化为向量表示,通过向量间的相似度计算的方式完成用户问题与知识库答案的匹配。首先根据问题中的主题词在知识库中确定候选答案,然后把问题和知识库中的候选答案都通过神经网络模型映射到一个低维空间,得到它们的分布式向量(Distributed Embedding),则可计算候选答案分布式向量与问题向量的相似度得分,找出相似度最高的候选答案作为最终答案。该神经网络模型通过标注数据对进行训练,使得问题向量与知识库中正确答案的向量在低维空间的关联得分尽量高。
8.6. 开源工具实践
8.6.1. 使用Elasticsearch搭建简单知识问答系统
8.6.2. 基于gAnswer构建中英文知识问答系统


雷达卡


京公网安备 11010802022788号







