使用SHAP值分析对黑匣子模型进行揭秘
能够建立能够进行高度精确的预测为哪些客户是在危险中的一个复杂的时间序列XGBoost模型,同时还允许个人级解释使这些客户中的每一个或多或少流失的因素。
要了解为什么这很重要,我们需要仔细研究模型准确性和可解释性的概念。直到最近,我们始终不得不在难以解释的准确模型或易于解释但牺牲了一些准确性的简单模型之间进行选择。逻辑回归或简单决策树之类的经典方法很容易解释为什么我们将一个人分配给正面或负面的类别,但是我们只能从这些基本模型中挤出那么多的预测能力。为了提高准确性,更复杂的模型可能会使用成千上万个决策树,然后将其结果与另一个模型或整体规则(例如,多数票)结合。在复杂性频谱的另一端,深度学习使用具有多个互连层的神经网络,每层都在关注底层数据的更高层次的抽象。这种增加的复杂性为这些模型提供了更大的灵活性,使它们能够达到简单模型无法获得的高精度水平,但是却以我们理解模型为何做出预测的能力为代价。甚至设计和训练模型的人也无法解释导致一个人被分配到另一个班级的原因。对于我们在Civis所做的工作(我们的模型必须生成行动见解和建议),正确地在准确性和可解释性之间进行权衡可能是一个困难的平衡行为。有了SHAP值,我们终于可以同时获得两者!使它们达到无法通过简单模型获得的高精度水平,但却以我们理解模型为何做出预测的能力为代价。甚至设计和训练模型的人也无法解释导致一个人被分配到另一个班级的原因。对于我们在Civis所做的工作(我们的模型必须生成有关行动的见识和建议),正确地在准确性和可解释性之间进行权衡可能是一个困难的平衡行为。有了SHAP值,我们终于可以同时获得两者!使它们达到无法通过简单模型获得的高精度水平,但却以我们理解模型为何做出预测的能力为代价。甚至设计和训练模型的人也无法解释导致一个人胜任另一个班级的原因。对于我们在Civis所做的工作(我们的模型必须生成有关行动的见识和建议),正确地在准确性和可解释性之间进行权衡可能是一个困难的平衡行为。有了SHAP值,我们终于可以同时获得两者!对于我们在Civis所做的工作(我们的模型必须生成有关行动的见识和建议),正确地在准确性和可解释性之间进行权衡可能是一个困难的平衡行为。有了SHAP值,我们终于可以同时获得两者!对于我们在Civis所做的工作(我们的模型必须生成有关行动的见识和建议),正确地在准确性和可解释性之间进行权衡可能是一个困难的平衡行为。有了SHAP值,我们终于可以同时获得两者!
该SHAP值技术是在最近的论文由Scott M.伦德伯格从华盛顿[大学提出的1,2 ]。它基于Shapley值,这是博弈论中使用的一种技术,用于确定协作游戏中每个玩家对其成功的贡献程度。在我们的案例中,每个SHAP值都衡量了模型中每个功能对客户预测的客户流失风险评分的正面或负面影响(见图1)。这与特征在逻辑回归中的重要性类似,我们可以通过查看每个系数的大小来确定每个特征的影响。但是,SHAP值提供两个重要的好处。首先,可以为任何基于树的模型计算SHAP值,因此我们可以构建复杂,非线性和更准确的模型,而不是将其限制为简单的,线性的(因此精度较低)的逻辑回归模型。其次,每个客户都有自己的SHAP值集。传统的功能重要性算法会告诉我们哪些功能在整个人群中最重要,但是这种“一刀切”的方法并不总是适用于每个客户。对于一个客户来说,一个重要的驱动因素可能对于另一个客户而言却不是一个重要因素。仅查看全球趋势,这些个体差异可能会丢失,而仅保留最常见的分母。利用个人级别的SHAP值,我们可以找出对每个客户影响最大的因素,从而使我们能够相应地自定义下一步操作。对于一个客户来说,一个重要的驱动因素可能对于另一个客户而言却不是一个重要因素。仅查看全球趋势,这些个体差异可能会丢失,而仅保留最常见的分母。利用个人级别的SHAP值,我们可以找出对每个客户影响最大的因素,从而使我们能够相应地自定义下一步操作。对于一个客户来说,一个重要的驱动因素可能对于另一个客户而言却不是一个重要因素。仅查看全球趋势,这些个体差异可能会丢失,而仅保留最常见的分母。利用个人级别的SHAP值,我们可以找出对每个客户影响最大的因素,从而使我们能够相应地自定义下一步操作。
图1. SHAP值衡量每个变量对客户的参与度得分的影响(衡量他们在下个月或下一年保持忠诚客户的可能性)。对于每个单独的客户,这使我们能够确定最大的风险因素(红色箭头)和保护因素(蓝色箭头),并推荐量身定制的干预计划。
尽管SHAP值可以是一个很好的工具,但它们确实有缺点(尽管在使用观测数据来计算要素重要性时很常见)。一方面,SHAP值对不同要素之间的高度相关性敏感。当特征关联时,它们对模型得分的影响可以以无数种方式在它们之间分配。这意味着SHAP值将低于从模型中除去一个相关特征以外的所有特征的值。风险是,以这种方式划分影响比使影响保持未划分状态显得不那么重要。公平地说,所有已知的特征重要性方法都存在此问题。第二个缺点是SHAP值表示预测模型的描述性近似值。例如,SHAP值可以告诉我们,对于给定的客户,销售拜访次数少会对他们的风险得分产生最大的负面影响,因此我们可能决定在下个月安排更多的销售拜访。但是,我们不能仅根据SHAP值确定此干预措施的影响。同样,这是对数据科学的基本限制。我们只能用观测数据做很多事情。为了准确估计不同的流失预防技术的影响,我们将需要进行随机对照试验(RCT)。
题库