请选择 进入手机版 | 继续访问电脑版
楼主: 滨滨有利123
852 0

[投稿经验分享] 成也标签败也标签--真实的模型案例分享 [推广有奖]

  • 0关注
  • 30粉丝

副教授

24%

还不是VIP/贵宾

-

威望
0
论坛币
198 个
通用积分
25.4545
学术水平
1 点
热心指数
2 点
信用等级
0 点
经验
9596 点
帖子
328
精华
0
在线时间
381 小时
注册时间
2015-4-26
最后登录
2023-9-23

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

听说北方的某消金持牌机构因为明文三要素被查了。所以你们现在还没使用md5等加密方式吗?




模型从来都不是风控里最好用的里东西,但是当你除了模型没有什么东西可以用的时候,你也只能使用模型,这也是模型的价值跟意义所在。这也是我们为什么千辛万苦都需要整一个模型的原因了。

我们来看一个真实的案例场景:

真~实~场~景

在一家第三方数据A公司里,现在想要重新开发个模型来对外输出评分。

几年之前开发过一个数据模型,目前因为和A合作的甲方B反馈目前的数据情况非常不理想,所以A公司想对这部分数据进行优化。

在数据公司里工作过的朋友就知道,很多甲方调用完数据之后是不会给到数据的好坏标签的,除非在合作前有互换咨询的商务沟通。那问题来了,目前缺乏好坏标签,如果想要优化自身的征信分数,怎么做?


有些同学看得理论书多了也上过一部分网课,一上来就来一大堆上采样下采样,标签传播….但是问题来了,本身就基本没有太多的坏样本,而且即使用也是历史久远的坏样本,也就是坏样本基本在很少;占比可能值达到了区区0.01%;对于这样的数据,如果单单使用这样的标签,直接做下采样或者上采样,效果都是非常不理想;

A公司想使用B公司调用的用户清单作为样本,利用这批样本再去调用第三方的数据情况,比如调取第三方数据厂商C(此处不给任何厂商打广告的机会)的数据,希望返回类催收数据作为Y标签。什么是类催收数据,就是跟催收相似的数据。比如催收次数、催收时长、催收等,具体的类催收数据可以参考:


使用类催收数据的逻辑是,客户是因为表现不好才会进入到贷后催收,所以才有跟贷后相关的数据。

最后A公司决定使用催收次数作为相关标签进行定义。这个数据在C的数据标签里是有很明显的数值。那我们就可以根据具体的业务情况,把这个客户在最近1个月内被催收了10次,把这个客户定义为坏客户。

那接下来怎么选取客户样本?根据B公司的使用情况来分析,B公司一个月调用的数据量在十几万左右,而且根据B公司反馈,目前客群的拒绝量已经达到了百分之九十左右。如果直接拿B公司的样本去整体进行建模,在理论上是可行的。然后实际上,这里会涉及到一个数据费用的问题。

所以这里就想采用随机抽取的方法,将B公司调用的样本,用随机抽取的方式,将样本压缩在1万条左右。

比如如果查10万这样的客户数,C公司给到的报价是一条2毛,那10万一个月查一次就需要2万。即使抽3个月,也才6万元。所以随机抽取是大大减少了费用。

随机抽取是可以将成本大幅降低了,但是这里又有一个抽取问题。因为我们之前说过在B公司调用样本的过程中,拒绝的客户达到90%左右,那也就是说,我们抽取的客户数,有很大一部分是混淆着拒绝客户的。在模型里有个概念:拒绝的坏跟进件后逾期的坏客群是不一样的坏,这得分属两种不同的范畴。

拒绝掉的客群,肯定是黑名单或者某些准入的关系被拒之门外的。所以这部分客群被拒是跟政策或者欺诈类相关的。在风控系统里,最外层的也是拒绝规则。客户准入后,又是因为信用情况烂掉被归为坏的,又属于信用风险的范畴。这是两类不同的风险。

~建~议~操~作

  • 需要在自己的业务系统里搭建一套最通用的准入规则,比如黑名单库、准入规则等;
  • 过完1步骤后,在之前的模型跑出客群,这里跑之前的模型,虽然ks值才只有十几,但是总比随机抽取的客群来的好,总算有些比较在里面。
  • 首期用这波客群进入贷后里去查询相关的贷后数据
  • 计算模型验证指标,再去纠正之前的数据情况再重新建立个模型,计算模型评估效果
  • 如果模型效果不太理想,再重复几步的步骤,进行观察几次,观察最后的结果。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:真实的 计算模型 千辛万苦 模型验证 部分数据

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-18 17:38