有诗云:
假亦真时真亦假,
无为有处有还无。
一畦春韭绿,
十里好多棵。
好多棵, 好多棵,
先锋网信来收割,
如葱如林,如玉如梭,
请求镰刀别乱割。
问谁腰镰胡与羌,
手起刀落断两边。
回眸凝视韭菜地,
血本无归泪数行。
又一巨头倒下。这年头,对咋老百姓来说最赚钱的买卖就是把钱存银行,哪怕只有年化2%的利息,靠得住的还是国家。大伙也别提买房,看这两年房价也基本锁死,这点升值空间哪怕一进一出的手续费,都不抵消。银行理财测试过,我就是一投资保守派。我的投资观念,可能有人不屑,但是对目前局势如此复杂、多变的当下,不亏就是赚。保持这良好的现金流才是王道,那些越快崩盘的,都是把杠杆玩到头了,这无一例外。
经常有同学抱怨,最近提数写报告,已经写到吐了。而且效率非常低,经常写着一堆数就莫名的犯困。最重要的是,不知道提完数该怎么分析,头疼...
做模型,做策略最重要的就是跟数据培养感情,找到好的入手的感觉。经常我们拿到一堆数据,无所适从,不知道该怎么入手分析。这个时候,是该向各位隔空传授绝密攻略:R-I-S-K——RISK,最好用的数据分析秘籍。
Relativity--关联性分析
模型有分有监督跟无监督,如果是有监督的就需要定义标签,其实说白了就是看与标签之间的相关性;怎么分析?分析跟逾期标签之间的关联度。这里可以做相关性分析,决策树等分析,需要结合具体业务进行分析。
比如在自身体系外,缺乏样本标签的时候,怎么定义一个好坏样本。在业务上,我们会用到一种近似、关联的方法,用专家定义跟贷后数据,用业务上能解释并且业内通用的准则,这都是关联性分析的范围。
这里介绍两种常见的逾期指标相关联的定义的方法:
第一:借助合适的第三方的数据,进行样本的标签定义。
这里插一个案例,最近有个同学在做授信模型,需要用到关于目标变量的定义。常规的金融公司,因为自己放款所以都会有固定的逾期指标。然而某些协助放贷的公司或者第三方征信公司,却经常没有合适的逾期指标的定义。这个时候就需要定义合适的逾期指标。
这一点在之前的文章也提及过,需要根据第三方的数据标签进行相关的定义,比如说在电话邦的数据库里是打着催收标签的第三方就是所谓的坏样本。至于具体催收多少次应该被定义为怀样本。这里你可以基于历史数据做一个简单些的数据分析,但这也得结合自家公司的风险容忍度跟产品业务。
什么是风险容忍度,比如你家公司有个产品叫员工贷,因为员工贷里你能获取到比较多客户信息。比如关系联系人等,这个时候,你可以把阈值设定得高一些。月均催收次数大于10次,才算坏客户。大部分客户不还钱的时候,我再跟他的公司上级或者亲戚联系(目前因为催收的合规性,获取联系人已经不允许做催收业务)。
而另一个线上自然流量获客的产品,如常规消费贷,因为你只能获取到简单的三要素信息。这样,你在风险阈值上就会稍微设置低一些。月均催收3次就会被定义为坏客户。所以这里就需要结合具体的产品、业务、数据具体分析,而风险容忍度就被包含在产品业务和管理层处的风险方案里。
第二:上面我们提到一个借助外部第三方数据来补充数据标签的例子。当然第三方数据也有缺乏时候,能否用自身的某些数据补充。这里再举例一个银行给企业授信的案例。请留意这是个小微信贷的评分卡模型,区别为个人评分卡模型。
我们用下达裁判文书的数据拿来定义客群作为标签。如果下达裁判文书,并且企业执行了,就是为好客户,否则就是为坏客户。
这里有模型经验的同学,会发现这里有个坑点:因为这样的定义里下达文书是否执行,就是一个被判断的关键点。所以在整个模型的建置过程中,最后的使用场景都是全体被下达过裁判文书的客户。所以这个模型的使用场景相应变窄了。是否真的这样?
但这里的业务需要稍微理解下:小微风控,特别是跟银行借贷的企业,一旦没有举债没有还款。法院一纸裁判文书马上就会上门,但如果履约了就没有任何裁判文件。所以这跟个人信贷的场景还是有差别。理解了这个点后,就会明白,模型的使用范围即被拓展了。即没有下达过文书的,也是好客户,同样下达文书并且履约的也会是好客户。
当然第二种,个人更倾向于是类似基于专家定义去定义的好坏客户,但这里具体下达裁判文书的比例的阈值还是应该结合具体的历史数据分析进一步分析。
以上两点我们会用到关联性分析,具体的指标是由关联(相关)系数等,以及基数两种共同决定。各位同学如果对具体的阈值感兴趣,可以到知识星球上跟我们继续讨论。
以上的两个方法对应的两个案例,均为真实项目中抽象具体衍化而来,希望大家可以以点带面。如果大家喜欢我们这种类型的文章欢迎点赞关注,我们下篇文章继续介绍:I-S-K。未完~待续...


雷达卡


京公网安备 11010802022788号







