楼主: 滨滨有利123
93 1

[计量与统计] 规则策略知多少 [推广有奖]

  • 0关注
  • 8粉丝

硕士生

60%

还不是VIP/贵宾

-

威望
0
论坛币
154 个
通用积分
5.0008
学术水平
1 点
热心指数
2 点
信用等级
0 点
经验
1266 点
帖子
89
精华
0
在线时间
84 小时
注册时间
2015-4-26
最后登录
2019-9-14

滨滨有利123 发表于 2019-7-11 18:13:51 |显示全部楼层
昨天跟知识星球里的同学交流,之前文章里出现的一个催收策略的问题。提的都是好问题,一个个递进,如果把这些问题搞清楚了,也就弄明白策略设置的原理了:


1. 为什么对照组是50%的量?测试组1跟测试组为什么分别是20%跟30%吧?

2.为什么测试组里一组是20%一组30%,而不是25%和25%呢?

3.高中低风险都会用同一套策略吗?

4.实际业务中,冠军挑战者也是高中低同一套策略吗,还是会区分?

一般来说对照组都会保留原先的策略,而测试组是用来跟对照组比对策略优劣程度的,属于冠军挑战者的一种方法。所以测试的都只用占比较少的客户做测试比对,万一测试的策略不好也不用担心会影响到实际的业务数据。可以理解为测试都是在小范围进行调试.这个回答了问题1跟2。


在每个风险等级里,你会看到策略的强到弱的趋势分别是:对照组>测试组2>测试组1。所以你可以看到从占比上看,我们都是希望从强到弱进行优化,所以策略最强的占比都是最高,中间的次之,最弱的占比最少。我们最后比较的只是每一组的回收率,如果测试组的回收率比对照组的高,证明策略就是有效的。这个回答问题3跟4。


仔细看一下策略里面的内容,其实是很不一样的。比如高风险里的对照组直接就是用最强的策略手工外呼,低风险的对照组的策略用的是自动外呼。


所以也可以知道,风险等级越高,用的策略就应该最强。策略强度随风险高低,依次递减。



在策略里除了贷后策略,风控里相对重要需要部署的还有贷前策略,而且目前大部分采用决策引擎部署的。


决策引擎是一种if-else的条件判断,在很早之前车、马、邮件都慢的年代,用单纯这件条件判断就够了。一个或几个逻辑判断,就能够保证清楚是否满足条件,比如判断你是有房或者没房,或者男性或者女性就可以,确实没有必要使用规则引擎,if-else 或者硬编码 可以更好地满足我们的需求。


然后随着黑产和羊毛的日益猖獗,目前的决策引擎部署的条件规则越来越复杂。业务规则往往是一个庞大且不断变化的规则组合,这使得系统非常复杂,如果只是使用常规代码,则会产生大量的维护工作:


以拍X贷为例,查询一位有效人的记录,就需要关联到1000个数据源…什么航空、出行、消费、黑名单…虽然前期加上获客成本,一个用户的成本就去到4到5百元,但数据多多益善,有的统统抓来。

目前市场上主流的决策引擎是fico、益博睿...,他们还可以支持定制开发,不过收费都不便宜。我看到有些公司自己IT开发能力强的,也有自己开发的。


规则引擎应用场景:

1.流程分支非常复杂,规则变量庞大,常规编码(if-else)难以实现

2.有不确定性的需求,变更频率较高

3.需要快速做出响应和决策

4.规则变更期望脱离于开发人员,脱离coding

关于目前的引擎的情况:

目前,所有的引擎规则大致可以分为强规则跟弱规则,然后这些规则之间或串行或并行,汇总成一个个规则包,一般强规则都是碰一个就挂,而弱规则包之间触碰到还是会部分放行,有些还会根据额度矩阵,进行风险等级的划分,再根据具体的情况做调整;但我目前看到的,大部分新产品上线时为了保证通过率,一般都是对触碰到这些弱规则包的人群进行降额;


了解下比如目前某公司的强规则就包括这几方面:


(数据脱敏处理)

关于优化规则引擎的编码的一些技巧:

曾经见到过,一些最原始的rawdata去做拒绝分析,做起来真心累,因为有时候客户是在一个规则包里被触碰干掉的,所以他在一个拒绝分析里会出现多条拒绝信息,所以有时对某些连中N条强规则的人群,其对应的数据清洗也够你累:


针对这种情况,我们对这样的编码规则做了一个优化,尽量将客户的触碰记录全部归结到一条记录里,参考方法如下:



当然这个还不是最终优化过的版本,建议最终优化策略是可以采用强变量+弱变量+批核维度三方面的数据结合,来优化策略;关于这部分知识,有兴趣的同学可以上知识星球继续围观讨论。

关于某数据源的应用:

对接数据源太多,以最近某公司对接的通话运营商数据的使用为例具体说明。比如dianhuabang,他们家的数据,列出来的数据字段里,大概有这么多:



分析这些常用字段,在之前的经验里,比较好用的也就是那么几条,另外对这些的数据源的具体处理技巧,顺带也提供几条比较常用的思路:


1.近期才有通话记录的,证明申请前就在制作通话假象,再远些覆盖不到。这一步也从另一方面增加薅羊毛的成本

2.通话清单里通话号码类似,来来回回通话就那几个人,通话是熟人之间叠加出来的数据

3.客人的深夜行为,如频繁夜间通话。深夜行为是个很有意思的数据,分析客户的深夜的操作信息,有些流水在某些产品还是相当不错的规则。




十年职场老司机,从事数据工作,长期混迹在风控界和科技界,如果有兴趣进一步学习的童鞋欢迎加入我们!




最后到了打赏环节,如果能看到这里真是真爱。部分私底下交流过的读者童鞋都知道,刚开始写这个公众号是为了梳理职业生涯学到的风控流程和相关知识。没想到一开始写公众号就开始每天涨粉,也不断有童鞋加我微信,成为VIP会员跟我们一起深度学习。


因为大家的信任,这一个月的时间里,除了节假日,本号基本是坚持每天更新的,而且写的都是实实在在的知识和技能。


为了让自己有更大的动力坚持下去,我也很希望看文的童鞋们会给我多点反馈,不管是对文章的赞同、提问还是反驳,都欢迎!当然,更欢迎大家赤裸裸地打赏。更多的反馈会帮助我们努力输出更多。





stata SPSS
滨滨有利123 发表于 2019-7-11 21:14:48 |显示全部楼层
关注下,ths
gongzhonghao.jpg
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 我要注册

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2019-9-16 00:58