假定某家金融机构已有成熟贷款产品XFD,打算向市场投放面向小微企业主的新产品XWD。建模人员通过数据分析发现,已有借款客户里面,只有27.2%的客户是小微企业主,基于少量目标样本开发的模型可能不适用。
产品A数据样本:
![](https://pic.jg.com.cn/img/pinggu/84c1ffe15968747470733a2f2f706963312e7a68696d672e636f6d2f38302f76322d63393637316564363533333439663232613837303530376364386430643665365f373230772e7765627095ab981c39.jpg)
开发过程如下:
1)为了让模型兼顾效果和稳定性,考虑把非小微企业主的样本加入是一个不错的选择。但是非小微企业主和小微企业主客户画像有很大差异,例如公积金、社保等信息无法作为小微企业主风险区分的显著特征。所以,在开发模型之前,需要先对非小微企业主的样本进行修剪,把特征和小微企业主“类似”的样本加入到建模当中。
2) 首先进行数据清洗,观察到数据有部分字符型变量,我们可以根据业务经验进行特征转换。例如身份证前4位分别是客户户籍所在地省份和城市,我们可以使用当前工作地进行加工,衍生“户籍和工作地是否一致“等衍生变量。
![](https://pic.jg.com.cn/img/pinggu/4f0a520bfd68747470733a2f2f706963312e7a68696d672e636f6d2f38302f76322d34313336643039316630313766353439333737633864663736623564396236635f373230772e776562705df51ee590.jpg)
![](https://pic.jg.com.cn/img/pinggu/1089b353ec68747470733a2f2f706963322e7a68696d672e636f6d2f38302f76322d66393430376331326461303463363431613232643531303430386131303435665f373230772e77656270455131bdac.jpg)
3)其次,我们使用IV值作为标准进行数据清洗,并整理成WOE值输出。
![](https://pic.jg.com.cn/img/pinggu/8da0d3e3a668747470733a2f2f706963312e7a68696d672e636f6d2f38302f76322d39643133363839346561373834636665363564306666353936316335333539335f373230772e776562700006a2ba76.jpg)
4)到这里我们开始进行样本修正。修正的方法首先是从业务出发制定硬策略把不符合要求的样本剔除。
例如:
1、剔除职业为公务员、教师、都市白领;
2、剔除存量已通过审批但未借款的客户;
3、剔除公积金有正常缴纳客户等。其次可以使用非监督的方法把非小微企业主中具有与小微企业主特征相同分布的客户找出来;
实操代码如下:
![](https://pic.jg.com.cn/img/pinggu/027a748f2368747470733a2f2f706963332e7a68696d672e636f6d2f38302f76322d36646162356632336530633035653833313461643935633662663561313838395f373230772e77656270fd2ee7ae49.jpg)
【备注:上述代码省略数据清洗部分】
5) 从上述代码可以看到,使用K-MEANS的分类方法归纳了4个类别,其中小微企业主客户样本(即数据集 loanProduct为3)在类别0占比最大。我们把类别0里面非小微企业主客户样本放到建模样本中训练。
实操代码如下:
![](https://pic.jg.com.cn/img/pinggu/304737a12368747470733a2f2f706963312e7a68696d672e636f6d2f38302f76322d34396433393831316265313832646561303336303339646633333532316238305f373230772e77656270ca4b8d9e3c.jpg)
6)这时候样本经过专家经验和数据分布归纳方法,我们把“更像”非小微企业主的样本“整合到建模样本中后,使用常规方法开发出来的模型。另外,上述问题也可以使用TrAdaBoost等迁移学习的方法解决,从实操看,效果没有使用上述方法得到的模型符合业务逻辑,有需要深入了解的同学可以在知识星球提问。
另外关于本文进一步的实操内容,更有相关的数据集提供给大家练习,相应的实操代码也可以同步到星球学习。
详细的数据可以到星球进行下载学习:
![](https://pic.jg.com.cn/img/pinggu/92bc072e2568747470733a2f2f706963312e7a68696d672e636f6d2f38302f76322d33313363333834303566623266356537343663636236616635353238343532305f373230772e776562704b1300e081.jpg)
更多详细内容,可关注:
![](https://pic.jg.com.cn/img/pinggu/bfef4edaa168747470733a2f2f706963322e7a68696d672e636f6d2f38302f76322d65356366326631373763626236323764303533346630636635366464363035625f373230772e7765627054b50811bc.jpg)
~原创文章
...
end