楼主: 滨滨有利123
495 1

风控模型开发之两”最”问题 [推广有奖]

  • 0关注
  • 31粉丝

副教授

24%

还不是VIP/贵宾

-

威望
0
论坛币
198 个
通用积分
25.4545
学术水平
1 点
热心指数
2 点
信用等级
0 点
经验
9596 点
帖子
328
精华
0
在线时间
383 小时
注册时间
2015-4-26
最后登录
2024-7-21

楼主
滨滨有利123 发表于 2022-10-13 23:02:15 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
做过模型的童鞋都知道,建模就是流水线的工种。在整个流水线中,我们梳理了有两个模型"最"需要注意的内容,分别是"最关键"与“最容易犯错"。这两个问题自然也是各位新手建模童鞋,更应该了解清楚的内容。

最关键的一part,模型的特征筛选;

最容易犯错的一part,是模型的特征回溯。

首先提到特征,讲得浅白点就是描述某个客观事物的表象。比如风控模型使用的特征,常常包含特征有:征信、消费支付、多头借贷、设备类等特征。

先说这里的第一个"最",最关键的特征筛选。目前,整体特征筛选的流程如下:

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)




俗话说:数据决定了模型的上限,而模型只是逼近这个上限。下图表示为模型开发阶段和模型上线调用阶段的数据的使用逻辑。

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)




在特征筛选中,只要把握好了模型中最重要的几类筛查指标就能做好80%的特征筛选工作,比如变量描述统计(缺失率/唯一值/分布占比)、变量稳定性PSI、变量区分度IV,以及各个指标的筛选阈值等。关于这几类模型指标如何筛选,我们有内容将会详细讲解。

说完第一个最,再来谈谈第二个最:模型最容易犯错—模型的特征回溯。

先搞懂啥是特征回溯。因为模型是在现在的时间点开发的,而回溯特征是在样本设计阶段之后的过程,所以常常需要追溯到它历史数据发生违约前的时间点,这样的特征才是有效特征。

既然存在数据回溯,就会发生数据穿越问题。所谓的数据穿越就是常常说的,用带有y特征的x去预测y(俗称用y预测x)这个内容也是很多做模型的同学,最常常容易犯的问题。举例说明,比如逾期次数,催收次数去预测逾期等。

那如何避免数据穿越呢?这里给大家提供常用的方法:

一点是观察点的使用(避免特征的统计时点出现在表现期)。

一般使用客户的三要素+观察点去进行回溯。特征的统计时点一定要在样本的观察点之前,否则就会出现数据穿越现象(借用客户未来的信息预测未来)。

更多详细内容,有兴趣的童鞋可关注:

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)

...

~原创文章


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:模型开发 Back PART 描述统计 历史数据 风控大数据

沙发
三江鸿 发表于 2023-1-26 20:32:06 来自手机
点赞分享

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-27 17:56