1、商业目标
业务理解:该案例所用的数据是一份关于信用卡违约的数据,如下:
表1:数据视图
其中,年龄、教育、工龄、本地居住时长、收入、负债率、信用卡负债、其他负债是信用卡用户的信息,而违约是记录的用户是否发生过违约。
业务目标:建立信用评估系统,当把信用卡用户的信息导入到该系统时,系统会自动输出这批用户的违约风险及信用得分,为信用卡用户的管理提供决策支持。
数据挖掘目标:建立信用卡用户的信用评估模型,该模型以用户的信息指标为输入,以违约为目标,建立预测模型,该模型可以根据输入指标的值,计算预测值(违约)。
2、数据理解与探索
这部分主要有两个目的:一是理解字段业务含义,进而理解相应业务;二是探察数据质量,数据的缺失情况和异常情况。可以使用统计节点和计数节点进行分析。
统计节点配置如下:
各个字段的缺失情况及基本统计量描述如下:
计数节点配置如下:
目标字段违约取值描述如下表,从表中可以看出,该数据一共有800个案,其中有517个用户是没有违约的,183个用户有过违约,还有150人不知道是否违约,这也是要待判的,即根据已知是否违约的700用户建立预测模型,预测这150个用户是否违约。
3、建模
第一步,使用行过滤节点筛选出已知违约结果的700人。
第二步,使用分区节点建立训练集和测试集。
第三步,以违约为目标字段,使用概率神经网络算法,可以使用默认配置,节点连接如上图所示。
第四步,使用分类评估节点评估模型。模型评估如下图所示,模型测试整体的准确度为83.421%,测试用的个案一共是211个,训练模型对这些个案判断正确176个,错判35个。
4、应用
第一步,使用行过滤节点筛选出待判的150人。节点配置如下:
第二步,使用概率神经网络(预测)节点基于训练模型预测这150人。
节点配置如下:
预测结果如下:
第三步,对系统生成的字段重命名。上表中的 表示用户不违约的概率, 为用户违约的概率。因此对这两个字段重命名如下:
第四步,使用Java代码段(简单)节点生成风险得分字段。配置如下:
第五步,使用Java代码段(简单)节点生成信用得分字段。配置如下:
第六步,获取高风险用户名单。
使用排序节点按风险得分降序排列。配置如下:
使用行过滤节点选择风险得分大于60的用户。配置如下:
使用列过滤节点选择想要展示的用户信息。配置如下:
使用交互表格节点查看高风险用户名单。如下:
第七步,获取高信用用户名单。
使用排序节点按信用得分降序排列。配置如下:
使用行过滤节点选择信用得分大于60的用户。配置如下:
使用列过滤节点选择想要展示的用户信息。配置如下:
使用交互表格节点查看高信用用户名单。如下:
5、小结
首先,通过该案例我们掌握了如何建立信用评分模型,当然此处使用的分类预测算法并不局限于神经网络算法,只要是适用于目标变量为字符型的分类预测算法都可以(如决策树、支持向量机、贝叶斯网络、KNN、Logistic回归等)。
其次,从该案例中我们还可以体会到有模型预测的概率比预测结果更重要,在该案例中我们基于违约概率和不违约概率分别得到了信用得分和风险得分的计算方法。
本文源自:http://wiki.smartbi.com.cn/pages/viewpage.action?pageId=13599819