黑匣子模型的全局模型可解释性技术
有道理的可解释模型比不透明的模型更值得信赖。有两个原因。首先,业务用户不会仅仅因为一台计算机就做出了数百万美元的决定。其次,数据科学家需要可解释的模型,以确保在数据收集或建模中不会发生任何错误,否则将导致模型在评估中运行良好,但在生产中却惨败。
可解释性的重要性取决于模型的用户。在使用模型提供解决方案的情况下,模型的准确性可能比模型的可解释性更重要。数据产品正在与实体或通过接口通信,从而消除了对可解释性的需求。但是,当人类是模型的使用者时,可解释性就占据了主导地位。
可解释性在误差范围低的领域很重要。在金融领域,从经验上讲是一门社会科学,并且没有逻辑上的理由让明天与过去的任何一天相似,因此用户必须了解该模型是至关重要的。例如,如果我们考虑默认模型的可能性,仅将客户分类为“好”或“坏”是不够的。贷款审批机构需要一个明确的计分卡来证明这种分类的依据。PD模型应在使用的变量方面有意义。
可解释性可以分为“全球”和“本地”。
全球可解释性:
此级别的可解释性是基于对模型特征和每个学习到的组件(如权重,其他参数和结构)的整体了解,了解模型如何做出决策。全局模型的可解释性有助于了解基于功能的目标结果的分布。对于PD模型,它有助于理解“好”或“坏”分类的基础。
本地可解释性:
这种可解释性级别是关于了解模型的单个预测。说,如果您想知道为什么特定客户被归类为“不良”,则模型的本地可解释性势在必行。
机器学习算法比传统的统计模型提高了预测准确性。这些算法通常被归类为黑盒模型。在本文中,我将讨论一些全局技术,这些技术可以帮助我们解释这些黑盒模型。
实施与说明
我已使用UCI机器学习库中的信用卡客户的默认数据集作为解释。目标是对下个月的默认客户进行分类(是= 1,否= 0)。
在对数据进行预处理之后,我将数据分为训练并以30%的测试大小进行了测试。使用来自sklearn.preprocessing的StandardScaler()对数据进行标准化。使用三个黑盒模型对客户端进行分类-随机森林,XGBoost和支持向量分类器。我获得了以下评估结果:
模型可解释性
所有这三个模型为我们提供了80%以上的准确性。现在让我们尝试使用“全局解释”方法来确定要素重要性,要素效果和要素交互。
功能重要性:排列重要性
置换特征重要性衡量了对特征值进行置换后模型预测误差的增加,这打破了特征与真实结果之间的关系。排列特征的重要性取决于模型误差的度量。因此,我们在这里使用测试数据。
模型可解释性
模型可解释性
顶部的值是最重要的功能,底部的值则无关紧要。每行的第一个数字显示了随机改组(在这种情况下,使用“准确性”作为性能指标)使模型性能下降了多少。±后面的数字表示从一次改组到下一次改组的性能变化。
负值表示对混洗(或嘈杂)数据的预测比实际数据更准确。当功能无关紧要(应该将重要性的重要性接近0)发生时,就会发生这种情况,但是随机机会导致对混洗数据的预测更加准确。
功能效果:部分依赖图(PDP)
虽然特征重要性显示了哪些变量对预测的影响最大,但部分相关图显示了特征如何影响预测。像排列重要性一样,在模型拟合后也会计算部分依赖图。该模型适合未经任何方式人工操纵的真实数据。
我们观察到随机森林与XGBoost的非相似行为。PDP的主要缺点是它们会忽略功能之间的关联。另一种技术是ALE,它处理特征之间的相关性。
功能效果:累积局部效果(ALE)
累积的局部效应描述了特征平均如何影响机器学习模型的预测。ALE图是部分依赖图(PDP)的更快,更公正的替代方法。PDP有一个严格的假设:功能必须不相关。在现实世界中,特征通常是相关的,无论是因为某些特征是直接从其他特征中计算出来的,还是因为观察到的现象会产生相关的分布。Apley and Zhu(2016)首先提出的累积局部效应图(ALE)可以通过使用实际的条件边际分布而不是考虑要素的每个边际分布来合理地缓解这一问题。当处理(甚至强烈)相关变量时,这更可靠。
在python环境中,没有适用于ALE的良好且稳定的库。我只找到了一个alepython,它仍在开发中。它也不是为分类功能而开发的。
功能交互:弗里德曼的H统计量
当要素在预测模型中相互影响时,无法将预测表示为要素效果的总和,因为一个要素的效果取决于另一要素的值。我们将处理两种情况:双向交互作用度量,它告诉我们模型中的两个特征是否相互作用以及相互作用的程度。Friedman和Popescu还提出了一个检验统计量,以评估H统计量是否与零显着不同。零假设是没有互动。
结论
机器学习的趋势是模型训练的自动化。这包括自动工程和功能选择,自动超参数优化,不同模型的比较以及模型的集合或堆叠。模型可解释性将有助于此过程,并将最终实现自动化。
题库


雷达卡



京公网安备 11010802022788号







