个人征信数据不平衡结构处理及特征选择
本文数据来源为“东证期货杯”全国大学生统计建模大赛中选题二提供的贷款机构历史业务数据<sup>[1]</sup>。首先,针对数据缺失,对连续变量根据数据缺失率分别采用删除法和多重填补法处理,名义变量采用特殊类别法处理;在信用数据不平衡问题上,结合K均值算法欠抽样与SMOTE过抽样组合抽样方法在处理数据不平衡问题上有较好的预测效果。
其次,在变量体系指标选择方面,改进了logistic回归的Lasso估计,采用四种信用评分模型对变量选择方法进行比较:针对不同模型特点,该变量选择方法对预测结果有不同程度提升。最后,经过实验比较可得,随机森林分类精度高;logistic回归总体分类精度略低于其他模型,但对于数据中少类样本的识别要高于一般模型;决策树模型分类精度略低于随机森林,但对数据中少类样本识别率不高。


雷达卡


京公网安备 11010802022788号







