信用评估与违约预测的模型性能调优—决策树集成学习应用 [推广有奖]

0关注
31粉丝

副教授

24%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 198 个
通用积分: 25.4545
学术水平: 1 点
热心指数: 2 点
信用等级: 0 点
经验: 9596 点
帖子: 328
精华: 0
在线时间: 383 小时
注册时间: 2015-4-26
最后登录: 2024-7-21

楼主

滨滨有利123 发表于 2022-5-17 18:27:58 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

在信贷风控场景中，贷前模型的应用对于申请用户的风险防范发挥着重要作用，例如信用评估、欺诈识别、违约预测等。模型的建立过程，必然需要某种机器学习算法来实现，而常用的算法包括逻辑回归、随机森林、XGBoost、LightGBM等，具体采用何种方法较为合适都需要根据建模样本与实际需求而定。但是，无论选取哪类算法，模型最终性能的认可往往不是一步到位的，是在模型训练阶段需要对模型参数经过多次调整优化，并通过模型效果对比选定表现相对较好的模型。本文从数据建模的实践经验出发，以集成学习决策树算法建立信用评估或违约预测模型为场景，介绍下模型性能调优的逻辑思路与注意事项。

对于常见的决策树集成学习模型，例如随机森林、XGBoost、LightGBM、GBDT、AdaBoost等算法，函数本身包含比较多的入模参数，这类参数又可以称为超参数。以XGBoost分类模型算法为例，比较重要的参数有max_depth（树的最大深度）、n_estimators（决策树的数量）、learning_rate（学习率）等，这些参数直接决定着模型训练的性能，对模型效果均有着重要影响。

在多数情况下，使用模型的默认参数进行模型拟合训练，也能够获得较好的预测准确度或分类结果，但是在实际业务中，往往需要获得更精确的模型结果，因此需要对模型的超参数进行调优。例如，XGBoost分类模型的超参数max_depth（树的最大深度）默认取3，然而在建模过程中，模型效果较优情况下的max_depth取值常常是大于3的。但是，此参数的具体取值不能随意设置，如果数值过小，可能会导致模型出现欠拟合，如果数值过大，可能会导致模型出现过拟合。因此，如何根据样本数据赋予某参数一个较为合理的取值，在实际建模过程中需要有一个合理的方式进行模型参数调优。

在实际工作中，最常用的模型调参方法是K折交叉验证与GridSearch网格搜索的综合应用方法，对于各类算法模型的训练拟合非常方便，尤其是针对具有较多参数的决策树集成学习算法，在建模过程中非常适用，而且在很多情况下成为模型性能优化的必备环节。本文将重点介绍下K折交叉验证、GridSearch网格的原理逻辑以及实现过程，便于大家理解掌握模型参数调优的具体方法。

1、K折交叉验证

在机器学习中，由于建模样本的训练集和测试集是随机划分的，因此为了更好地评估模型的有效性，有时会重复使用这些数据，以选出相对表现更好的模型。这个过程的具体描述，可以概况为对原始数据进行拆分，然后组合成为多组不同的训练集与测试集，其中训练集用于拟合模型，测试集用于评估模型，在整个环节某次的训练集可能是下次的测试集，因此称为交叉验证。

对于交叉验证的具体方法，包括简单交叉验证、K折交叉验证、留一交叉验证等，其中K折交叉验证用于相对较为广泛。K折交叉验证是指将建模数据集随机等分为K份，每次选取其中K-1份作为训练集，剩余1份作为测试集，经过训练后可以得到K个模型，然后将K个模型的平均测试效果作为最终的模型效果。通常情况下，如果训练集的样本量较小，则需要增大K值，以保证在每次模型迭代过程中有较多的数据参与模型训练；如果训练集的样本量较大，则需要减小K值，这样可以降低模型在不同样本数据上进行重复拟合性能评估的计算成本。

在Python语言中，K折交叉验证是通过cross_val_score( )函数实现的，代码样例如图1所示。