(Flow_rate是贷后催收的一个重要监控表格,添加官微获取数据联练习下。)
说完业务逻辑,我们来看一下建模的要求:建模关于变量的定义需要明确的两个指标,观察期跟表现期:
观察期就是我们观察的样本在这段时间内是否能作为我们数据建模历史数据的参考的时期,可以理解为X变量;表现期就是客群会发现出他的好坏状态的时间窗口,也就是Y变量。
那这个跟vintage跟flow rate又有什么关系?
1.观察vintage,一个是想看一下资产在什么时间窗口稳定,一般只有当一个产品表现趋于稳定,他的历史数据才具有统计意义,波动性太强的数据,压根是没有规律的,这在统计学上也是这样要求的;
2.观察flow rate,是想从另一个方面观测表现期大概是需要多长时间的窗口
另外更重要的是:
1.观察vintage,大大缩短了我们选取样本的时间窗口,比如一个36期的产品,选择mob12作为观察期就行了,比如在上面我贴的那个例子中,压根不用等产品走完36个月,有时候等整个产品周期都跑完再来建模,黄花菜都凉了。当然对于某些现金贷产品,周期特别短的,观察期就不是这样的一个选择方式
2.观察flow rate,同样大大缩短了选取样本的表现期的窗口,同样是上面的那个例子,压根不用等到坏账再来统计。
3.观察期跟表现期是两个圈,他们有交叉或者叫重叠的时候。有些坏样本MOB12内就可以看到起表现期。
4.所以基于上面的分析我们只要分析mob12里客群就行了,并charge—off只要坏账时间在2个月,就可以界定为坏样本了。
(关于A卡时 间窗口的选择的样本,是否理解透了?如果有问题,要不在后台获取数据练习下?此部分知识点重要,也会在后期的视频中着重涉及)
第二部分:关于C卡的样本定义
C卡同样有表现期跟观察期的概念,不同的是C卡的表现期的选择会更灵活些。
下面将以迁徙率模型为例说明下:
在迁徙率模型里,你要做的模型是为了预测客户从M0迁徙到DPD5+的状态的概率。
之前我就说过,你需要把这段时间划分为两个窗口看待,一个是前一个period为M0,经近一期的催收后,在下一个period表现为DPD5+。
在这里,观察期可以选取客群近一年的状态作为历史数据,也可以选择截取时间点前整个生命周期的作为历史数据;但是表现期是比较固定的,在你截取时间点的下一个period是什么状态直接关系他作为好样本or坏样本。
在梳理好坏样本的步骤里,是需要把客户对于每一期的period展开,以此往里面填充各种维度的数据。比如关于DPD的数据,你最少清洗完应该是类似这样的数据:
十年职场生涯,这个长期混迹在风控界和科技界,摸爬滚打的大叔,曾经就职于全国最大的固网运营商平台、国内最大的ERP软件公司和一家老牌的互金公司,如果你想了解他,欢迎加入一起学习一起聊!