风控建模(七):催收评分卡的流程—上(所有评分模型与机器学习模型同样适用)-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 考研考博>>

考研

>>

风控建模(七):催收评分卡的流程—上(所有评分模型与机器学习模型同样适用)

风控建模(七):催收评分卡的流程—上(所有评分模型与机器学习模型同样适用)

发布:滨滨有利123 | 分类:考研

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

说了那么久的建模,今天应该跟大家分享一下实际建模的流程步骤了。整套建模代码我分别用sas跟python都整理了一遍,而且现在也打算用神经网络试一下建模,看下模型的各项验证指标能提升多少。建模的流程,目前综合各大 ...
扫码加入金融交流群


说了那么久的建模,今天应该跟大家分享一下实际建模的流程步骤了。


整套建模代码我分别用sas跟python都整理了一遍,而且现在也打算用神经网络试一下建模,看下模型的各项验证指标能提升多少。


建模的流程 , 目前综合各大公司的开发流程的来看,大同小异,今天这篇主要分上中下篇或者上下篇,具体看码字的篇幅,跟大家介绍下常规的评分卡的建模流程,如有雷同,真是流程化生产的东西。


我今天会捎带着掺杂催收评分卡的业务进入这篇文章里。因为你也知道催收模型,市面上的确很少有干货文章介绍。当然我介绍的这些建模的流程,不仅适用于贷前贷中贷后评分卡,而且目前很多机器学习的步骤都如此。如果有不一样的地方,那就是所用到的个别方法不同而已。


一般建模的流程图:

https://mmbiz.qpic.cn/mmbiz_jpg/PEKphia3jV8rlvlmQzVDkZ3udDDuSIDAnHMjgHhwzAgnxAhd3c2gV3zyEsJq9nzKg5xDUws5jK2WDvxqfFxusYg/640?wx_fmt=jpeg


下面一步一步地拆解步骤,分析这个流程图:


一.业务定义

https://mmbiz.qpic.cn/mmbiz_png/PEKphia3jV8rlvlmQzVDkZ3udDDuSIDAnBEwib8jiboaBeQS2SrOwf49DSrkEaOJkviaVW7OtFEfjoo3dl09uEBhmg/640?wx_fmt=png

C卡

一直强调,业务定义是重中之中。在我介绍以往的催收评分卡里,关于催收模型的分类实在是太多了,有M0到M1的使用场景,有DPD1滚动到DPD10的场景,还有最近有位粉丝要开发的DPD1-4滚动到DPD5-20的场景。


场景太多,所以模型的定义也需要非常明确,不然一个不小心就跑偏了。


需要理清的是我在模型的定义跟使用场景。


A卡

申请卡里的A卡的业务比较容易理解。只要确定了观察期跟表现期两个时间窗口就可以了。目前一般银行的产品来看,都是1-3年的居多,分析资产情况,模型的观察期都在一年,这点也满足巴赛尔协议的要求。


关于业务定义的不明白的地方,可以会看我之前写过的一篇文章:

风控建模系列(六):催收评分卡卡跟贷前申请卡关于目标变量的定义


这里面说得非常详细。


流程第一步是模型定义先开路

二.理清自家数据情况

一般这一步跟第三步是可以同时进行,数据处理得多了,大概也知道自家的数据。把报告的信息输出到数据准备和分析报告里。


理清楚自家公司的数据库存,看下数据维度是否丰富,能否支持你能开发一张评分卡,需要用时间序列梳理下变量的情况。


这里需要看自己家的数据是否有缺失,是否有异常,提前为数据清洗做初步的准备。


比如通过分析不同时段的进件人群的性别趋势:


如上图在18年8到11月份的用户频率情况,可以发现在11月时候,男性用户有一个激增,通过分析我们需要去寻找是不是策略在这个时点进行了某些调整等造成数据激增


有一些因为业务关系带来的数据变动,可能还需要对不同的时期的产品单独开发一套模型。


以下的代码是对应上图所输出的参考代码:

data b;

set a ;

time=put(day, yymmn6.) ;

run;


proc freq data=b order=freq;

tables time*sex/ out=B1 ;

run;


除此之外,还需要分析各产品随时间变化的申请量、通过率以及各逾期指标分布情况等。


做这些指标统计,都是让你理清公司资产跟数据分布的情况。


这样做的目的有两个:

一是让你在开发模型前对数据心中有数同时为下一步的数据预处理做准备

二是等到模型开发时,看变量的细分程度能否做到预想的程度


比如:有个同学在清洗自家公司的催收数据的时候,发现ptp的这个字段字段无法严格按照对应每一期梳理成需要的时间切片数据,原因是:业务前端的催收同事在做标记时,时间这个标签标记不清。最后的方案也只能是输入变量的时候只能有一个历史汇总的变量输出,改善的可能性只有在后续的模型迭代里,才有可能把这些字段分开输出。

三.确定模型样本

确定建模窗口,挑选建模样本,剔除该剔除,选择该选择

1.能进来前期做数据样本的都是你卡在所定的时间内的数据样本;

2. 还有一些需要注意的:在A卡里,需要剔除掉的是前期被拒绝掉的样本(进件时直接被拒掉的客户;)

在C卡里就看你的基本样本池规定的是什么状态的样本,比如你是预测MO滚动到M1的概率,那建模的时候处于你卡到的时点为刚好为逾期的样本就要剔除;

3. 结合你公司的样本产品而言,某些渠道的产品再也不会有合作了,今后不再需要进入你的业务场景里,而且这部分客群数量非常少时,可以考虑剔除在建模样本数据外。

四.数据预处理

(目前很多资料都是从这一步开始的介绍,殊不知前面三步骤无比重要,直接关系到从这四步开始往下做的事情是否顺利跟合理)


a.数据规整

数据规整,需要结合业务和头脑风暴把业务合适的介绍出来,梳理出来。最后是把数据都汇合成一张宽表。里面包括的就是目标变量Y、时间、许多基础变量和衍生变量组成的宽表。

b.数据清洗

数据清理是对各种脏数据进行对应方式的处理,得到标准、干净的数据,提供给模型使用。

如果数据源系统分散在各个应用系统,系统之间对数据的要求、理解和规格不同,导致对于同一数据对象的描述规格完全不同。

那么当数据来自不同数据源时,则需要统一数据规格,如对变量名称、变量类型、度量单位等进行统一。

通常变量分为数值跟字符,数值变量里还可细分为日期跟纯数值。清洗这三种的手法有些许差别。如字符经常用频率来统计,数值应该用范围来限定数量。

c.衍生变量

衍生变量的方式就比较多种多样,通常的日期跟变量的结合做各种事件切片,一月数据/二月数据/三月数据;

变量的之间的拼接,如教育程度跟婚姻状况的拼接,如本科已婚,博士未婚等

d.缺失值异常值处理

变量缺失值处理是数据处理过程的一个重要环节。通过报表分析,统计字段在表中的缺失情况。

在缺失值处理上,可以结合变量不同的缺失情况、缺失原因以及变量类型,采取相应的缺失值处理策略。针对缺失值处理,通常都有删除法、替换法以及插补法。

e.异常值的处理

造成异常值的情况也多种多样,如系统问题,数据端口的对接传送有问题,亦或是你在清洗的过程中不小心造成的个别错误,都是造成异常值的原因。

基于此,我们一般可以通过做各种分位数的方法检测(一般采取95%分位数去卡极值点),也有三倍标准差等方法。这个知识点比较多,在后续的视频里会把这块当成重点来讲解。

f.数据初步挖掘

某些同学会称为数据探索,其实是同个意思。旨在挖掘有价值的变量。

变量清洗完成,之后得到干净的数据就能对数据进行数据挖掘了。探索的目的是为了初步比较有区分能力的字段。

比如对婚姻情况的分析:

找到这个变量,然后可以看到已婚的占比最大,再接着分析逾期率看看跟频数有没有正相关。

总之我们根据初步分析来找某些前期比较有价值的数据。

数据探索,当然也包括对得到某些重复太高或者缺失太大的变量(缺失超过70%的变量),就考虑剔除这部分变量。

最后你应该可以把所有的变量合作一张大表里,方便你后期分析:

综上,主要是分析不同渠道、不同时间或者是产品之间的差异。

提供一段关于合并报表的代码:

%macro pub_best_num(data,lib,dsor);

proc datasets lib=work;

delete _all_;

run;

proc sql noprint;

drop table ben.total_char;

quit;

%if &i.=1 %then %do;

proc sql noprint;

create table ben.total_char(variable char(50),type char(50),count num,PERCENT num );

quit;

~~~~~~~~~未完待续~~~~~

本文涉及到几个代码,要不要获取下源数据练习下,加下官微聊一下




十年职场生涯,这个长期混迹在风控界和科技界,摸爬滚打的大叔,曾经就职于全国最大的固网运营商平台、国内最大的ERP软件公司和一家老牌的互金公司,如果你想了解他,欢迎加入一起学习一起聊!



「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-7165806-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。