请选择 进入手机版 | 继续访问电脑版
楼主: 滨滨有利123
3180 1

[投稿经验分享] 催收评分卡(三)迁徙率模型_中(源数据+含代码) [推广有奖]

  • 0关注
  • 30粉丝

副教授

24%

还不是VIP/贵宾

-

威望
0
论坛币
198 个
通用积分
25.4545
学术水平
1 点
热心指数
2 点
信用等级
0 点
经验
9596 点
帖子
328
精华
0
在线时间
381 小时
注册时间
2015-4-26
最后登录
2023-9-23

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

​数据清洗/数据治理

1.数据清洗是一个非常修炼身心的过程,途中你除了需要把所有的数据整业务合到一张宽表里。而这种宽表中所有的字段,是你理解完业务后,细心整理出来的所有适合建模的数据。

这里主要介绍下两大在催收模型中,最常用到的表。一个是payment表,一个是colletion表

(不同公司对这些表的叫法可能都不太一样).


翻译成中文就是还款记录信息表与催收记录信息表。还款记录表主要记录了客户各种还款的数据,不过在我们公司里一般会把时间切片相同的还款记录,整合在一起,还款的金额是同个时间切片内的进还行叠加,最后一次还款的时间来覆盖之前的还款记录。


2.还款记录表(payment)

先介绍还款记录表,还款记录表是一张记录客户,什么时间,通过什么方式还了多少钱的数据表格。


通常这张表不是单独用,需要跟客户的还款计划表一起结合起来使用。比如列出该客户的所有的还款的计划账单,并且跟我们每期的还款记录表拼接,就可以判断,客户每个期数内是否有正常还款。


我了解到有一些公司在做还款记录表的时候,会对某些内容进行修改,从而会影响后续的还款状态的逾期判断。比如一个坏账的客户,会将其坏账之后还款时间标记上(这个逻辑不要问我为什么)。


从而你在判断他在这一期是否逾期的时候,不能单独利用还款时间(value_day)这个字段单独判断,还需要结合还款的金额跟理应还款金额进行作差比较。而且知道有些公司里,在算当前的期的时候,本金跟管理费还是分开来算的,所以在做这个判断的时候,最好是用还款的金额跟理应还款的本金的作差,这样算出来的结果似乎更偏向合理些,因为到了真正需要客户还款的时候,常常会发现将客户的管理费、利息统统豁免,所以用这种方式去计算是最好的。


理清楚需要前面的这些逻辑后,其实你还需要将还款计划表进行转置,关于转置在SAS里是非常容易实现的,使用proc  transpose就 可以了,在python里同样使用transpose(x)实现。工具真的不是最重要的,毕竟工具自己买本书或者上网找点资料自己看看也就行了,


思路跟逻辑才是最关键的。只有好的思路,不管策略也好、模型数据也好、政策也好,才能真正把风控落实到实地。


最后给大家看一下还款记录表长什么样子:


字段太多了,整个屏幕都放不下,大概意思就是存放了客户还款的记录跟状态,不过这里会涉及到本金跟管理费的知识,还有账期跟账单的知识,单单看这个表还是有些看不懂。

3.催收记录表(colletion)

接着介绍催收数据表。催收记录表,记录着我们催收人员与客户之间数据的联系,有着跟催收的相关的信息,比如PTP、KPTP、BP.....关于对这催收的信息不太熟知的童鞋,请戳这里:催收小词典。


关于催收记录表,最后做成催收数据时候,也是需要类似还款记录那样,展开成一期一期的形式。催收记录表一般是长这样:


4.关于外部第三方数据表

目前一些第三方数据源,仍是会从不同的渠道或者时间切片进行组合,比如百融的多头,聚信立的校验数据,极光的用户标签等数据

  

但是结合目前贷后的各种数据维度表现来看,外部第三方的数据都没有自家的客户的行为数据好用。毕竟自己的行为数据是最真实的。


5.衍生表

衍生的数据,除了根据时间切片,只要脑洞够大,可以结合业务做成各种各样的数据,下面主要介绍三种最常用也非常好用的变量。


DPD

这个变量理应不能叫衍生的变量,他也应该叫基础变量。但它其实是应该是由还款计划表和还款记录表一起来共同判断的。只要在dual_day之前,没有还款本金,都是DPD的时间。


所以对于具体的DPD,需要有两个判断的条件,并且涉及的业务表格有3个表。


Kptprate

这个变量主要有反应客户实际还款比例的,计算公式是kptp/ptp。单单用ptp的变量,比较容易造成催收员为了完成业绩故意下P的行为,再上kptp的一起来计算客户的实际还款比例,较好得控制了主观的数据干扰。


Period_percent

已还期数占比的占比,这个变量整理出来也很有含义,我在做完这个变量的分组后,会发现这个变量的woe值是一个V形的走势。整理好的woe的曲线走势:


大家可以先思考下,为什么在这个曲线符合真实的业务场景吗?这个变量的曲线最后输出为什么是一个V字行的曲线。


干货分享,直接上部分代码:

下面直接上代码,大家直接在sas里直接运行这段代码,直接处理数据,有需要源数据的,请在后台留下微信,官微会发给大家。

DATA TMP.LIST_LOS;

SET DLOAN;

IF DUE_DAY=&DUE_DAY_NEED;

IF STS='ACTV';

LOAN_NO2=INPUT(LOAN_NO,$30.);

KEEP LOAN_TYPE LOAN_NO2 ORIG_PRCP TNR CHARGEOFF_REVERSAL_DATE STSDUE_DAY;

RENAME LOAN_NO2=LOAN_NO;

RENAME ORIG_PRCP=LOAN_AMOUNT;

RENAME TNR=TENOR;

RENAME CHARGEOFF_REVERSAL_DATE=CO_Date;

RENAME STS=STATUS;

RUN;

。。。。代码太长,帖子放不下.....

--------------------------------------------------------------------------

十年职场生涯,这个长期混迹在风控界和科技界,摸爬滚打的大叔,曾经就职于全国最大的固网运营商平台、国内最大的ERP软件公司和一家老牌的互金公司,如果你想了解他,欢迎加入一起学习一起聊!



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


关注关注关注
gongzhonghao.jpg

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-28 19:13