PART 5.拒绝捞回的总结和思考
因为被拒人群的风险较高且难以预估其真实表现,拒绝捞回是一种冒风险的尝试,所以在做之前,要考虑目前业务的实际情况,如果现阶段的逾期表现良好且稳定,做捞回是可以一定程度上提升业绩的,逾期情况不太好的话还是要谨慎考虑。
对于捞回用户最好还是做一下“增信”,从中挑出好的用户,常见的增信方式有用模型分再卡一道,或者增加一些强规则(年龄,收入,社保公积金等)。另外也可以通过降低捞回用户的额度,提高利率,限制期数等手段来覆盖坏账损失。
PART 6. 实操环节--拒绝推断(外推法)
拒绝推断是风控建模中解决“样本偏差问题”的一种方法,我们都知道风控建模是对于放款通过的样本建立的,而放款拒绝的样本因为没有好坏标签,所以不会加入建模样本里。但模型上线应用时,例如在支用申请环节,会对全量样本做预测,造成“部分样本估计总体”的问题,模型的预测结果可能偏离了实际情况。所以为了解决这个问题,引出了拒绝推断的方法,它的目的是对拒绝样本打好坏标签,然后加入到建模样本中来训练,从而缩小训练样本和总体的差异。本次实操是拒绝推断中比较常用的一种方法---外推法。
外推法的思路简单讲就是拒绝样本的风险是比通过样本高的,我们可以先用通过样本建一个模型,对拒绝样本打分,对其进行分组,然后人为指定一个风险倍数来推断拒绝样本的badrate。具体的实现流程:
1)对通过样本建模,并对通过样本和拒绝样本打分。
2)对通过样本根据模型分进行分组(一般等频),统计每组的badrate,并将拒绝样本按同样的逻辑进行分组。
3)指定一个风险倍数(2-4),将通过样本的badrate乘以风险倍数,就是拒绝样本推断的badrate。
4)根据推断的badrate计算拒绝样本中每组的好用户数和坏用户数,并随机赋予bad和good状态。最后检验整体拒绝样本的badrate是否为通过样本的2-4倍。
5)将拒绝样本和通过样本组合起来建模
实操的步骤如下:
1.实操提供了两份数据,kgb_data(放款通过样本,有好坏标签),reject_data(放款拒绝样本,无标签),第一步先对放款通过样本建模,构建kgb模型,这里建模用的是lightgbm算法。


2.对全量样本(放款通过的和拒绝的)进行打分,从模型分分布看,拒绝样本整体分数要比通过样本低,符合业务解释(拒绝样本的坏用户占比会更高)。

3.将通过样本的模型分按等频(分为8组)分箱,计算每组的badrate,将拒绝样本按相同的分箱逻辑进行分组。

4.对每个分箱,以通过样本的badrate乘以经验风险因子(一般是2-4),得到拒绝样本的badrate。这里风险因子为2,说明每个箱拒绝样本的风险是通过样本的2倍。

5.按照拒绝样本每个箱算出来的好用户数和坏用户数,随机赋予箱体内样本以bad和good状态,最后看下整体拒绝样本的badrate是否为通过样本的2-4倍。

6.合并拒绝样本和通过样本建模。

希望本文能帮助到各位做风控的同学!
关于本文涉及内容,因为(公众号)此处无法传输数据集,我们会将整体内容以文件包(数据集+代码)同步到知识星球平台,实操内容请大家移步:

~原创文章
...
end


雷达卡


京公网安备 11010802022788号







