楼主: 滨滨有利123
676 1

风控模型特征重要性与稳定性的分析|基于python的实操演示(示例Toad库) [推广有奖]

  • 0关注
  • 30粉丝

副教授

24%

还不是VIP/贵宾

-

威望
0
论坛币
198 个
通用积分
25.4545
学术水平
1 点
热心指数
2 点
信用等级
0 点
经验
9596 点
帖子
328
精华
0
在线时间
381 小时
注册时间
2015-4-26
最后登录
2023-9-23

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
在上班的第七天后,各位风控人终于迎来了国庆后的第一个周末!

常规化模型开发过程中,模型开发阶段和模型上线调用阶段的数据的使用逻辑的流程如下:

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)




在以上的开发阶段中,我们最绕不开的就是特征的选择开发与选择,在本周较早时间,我们给大家讲解了特征筛选的内容:

→_→风控模型开发的特征选择与常用数据源介绍

今天我们再跟大家讲解特征的稳定性与重要性分析。

①特征稳定性分析

PSI(群体稳定性指标指标):PSI反映了不同样本之间在各分数段的分布稳定性,在建模中,我们常用来筛选特征变量、评估模型稳定性。

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)

【方法】我们通过对所有特征逐月psi的计算,就可以初步剔除分布变化较大的特征(阈值可以放宽设在0.15~0.2)。

若建模样本集按时间划分训练集和测试集,可以以训练集的各个特征作为base,用测试集与训练集进行比较计算所有特征psi,进行筛选;

或者,将样本逐月划分,以第一个月作为base,之后每个月与第一个月进行比较计算逐月的psi,再计算各个特征在所有月份psi的均值(最大值),进行筛选;

特征稳定性,是风控特征分析中最重要的指标之一,各位风控人必须掌握的内容。




②特征重要性分析

IV(Information Value):指特征的信息量,用来衡量特征的预测能力。

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)

关于IV的评价,可以参考一下指标:

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)

关于特征重要性,就不得不提到另一个指标WOE

【定义】 WOE(Weight of Evidence)叫做证据权重:WOE是对原始自变量的一种编码形式,要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱)。

这里分箱可以是等频/固定点划分/监督分箱(后期会详细说明分箱及weo的使用),等总体上对IV计算的影响不大。

分箱后每一箱的WOE的公式就是:WOE=ln(坏客户占比/好客户占比)×100%

【计算】

(1)特征分箱:连续型变量,可以选择等频、等距,或者自定义间隔;离散型变量,如果分箱太多,则进行分箱合并。

(2)统计每个分箱里的好坏人数(bin_bads)和人数(bin_goods)。

(3)分别除以总的坏人数和总好人数,得到每个分箱内的坏客户占比和好客户占比。

(4)计算每个分箱里的woe_i。

(5)计算每个分箱里的IV,最终求和,即得到最终的IV




我们通过变量描述统计(缺失率/唯一值/分布占比)、变量稳定性PSI、变量区分度IV,以及各个指标的筛选阈值,就可以初步完成特征的筛选:

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)

关于以上模型特征稳定性与稳定性的内容,我们关注的不仅仅是公式的计算方式,指标是死的,而业务是一直在变动的。

比如客群未变的前提下,客户发生了等级滑坡,或者模型中客群的分级出现变动时候,这些指标又应该如何调整跟优化呢?所以以不变应万变,真正学会这些指标背后的逻辑才是最重要的内容。

课程——《风控模型开放的特征选择》

课程不仅仅是理论性的内容讲解,我们也会提供相关的代码和数据集给到大家实操。

【代码参考部分如下】

利用第三方toad库 的IV函数计算特征iv值,一行命令即可对dataframe的所有特征iv进行初步计算。

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)

...

~原创文章


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python 稳定性 重要性 information Informatio

沙发
三江鸿 发表于 2023-1-26 20:31:50 来自手机 |只看作者 |坛友微信交流群
点赞分享

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-7-7 13:04