相似文件
换一批
经管之家送您一份
应届毕业生专属福利!
求职就业群
感谢您参与论坛问题回答
经管之家送您两个论坛币!
+2 论坛币
本文介绍一些经常在建模中会忽略的变量细节。
模型开发中,经常需要对变量做各种统计分析,而且在分析前还需要跟业务跟产品的同事碰一下变量的逻辑。刚从事模型开发的同学,或者算法转型过来的同学。经常因为一些业务细节,忽略了某些变量的分类。我看过的很多都是栽倒在变量的分箱上,自己也经常遇到这样的场景。
比如对于贷前评分卡中的某个变量——3个月的内安装信贷app的单的个数,当时在批量分析变量时,这个变量的IV值还特别高。当时非常兴奋,觉得这个变量非常有区分能力,打算马上写个报告把这条变量做成规则。
但后来重新批量跑数据的统计分析时,批量分析每个变量的缺失度,该变量的缺失程度竟然高达85%。后来经过分析,IV值特别高的原因还真是缺失的关系引起的。(大家想一下具体的原因?)
后来顺着具体的逻辑分析下去,才发现在匹配这列的时候,有很多值其实是有值的,该值等于 0。但是数据分析的同事,不太理解里面的业务逻辑,直接将部分的0值删除了。了解业务的话,会知道这个变量的业务逻辑是由该客户的身份证或手机号码匹配得到,所以在业务上来解释。该值在等于0和为空(null)是完全不同的解释。
为空代表着手机或者身份证是匹配不到相应的客户的信息,为0代表着是该客户的没有安装相关的贷款APP,对应的风险等级非常低。在业务上区分不了这两者的区别,就会造成错误分箱。但这还不是造成严重错误的分箱,因为在这个场景里为空查询不到具体的风险情况的时候,还可以单独列出来监控。但在某些一些变量里,区分不清楚两者的关系会造成非常大的起义,甚至损失。
这里再聚一个变量衍生例子。变量衍生是经常做特征工程需要处理的事情,因为当变量数量不太具有某些区分能力或者想要增加一些分析维度的时候,我们经常再做变量衍生。
“欠款金额”就是这样的一个变量,欠款金额(dep_among),根据字面含义欠款金金额越大,代表客户的风险越高。但这个变量里的值有些为0,有些为空。根据这个变量的业务逻辑,0代表着客户之前有过欠款,目前可能已经还清了;空值,表示客户从来没有欠款或者从来没有贷款记录。这个后者在征信上代表着白户,这在很多信贷产品中,有些是准入都无法放开的客户。所以变量取值看似相近,但却有非常大不同。“细思极妙”,往深度些思考,这里面的逻辑的确非常耐人寻味。
什么样的模型所生成的变量也不太一样。刚才前面的变量都是贷前审批的模型,而在反欺诈模型里,用到的模型变量又非常不同了。比如经常会用到的关系网络模型里,里面经常需要用到的更多的是一致性的变量,交叉变量等,如:手机号一致数量,居住地址一致数量 ,家庭电话一致数量,单位名称一致数量,单位地址一致数量....以上这些都是属于交叉,一致性会入模的变量。
关于变量的业务逻辑今天先简单些聊到这里,后续可以再继续跟各位分享更多的一些衍生内容。
最后关系这份关系网络,限于篇幅暂不介绍,知识星球上有需要了解相关变量的同学欢迎在微信上@我,领取相关的学习资料,谢。
微信公众号&知识星球号:
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
|