作为一个长期在传统金融机构从事风控模型开发的人,我的工作经验中,大多数构建的风控模型主要基于逻辑回归评分卡,虽然也接触过一些机器学习模型,但并不是很多。传统的逻辑回归评分卡因其变量特征具有较高的可解释性,并且每个变量都对应具体的分数,使得我们可以清楚地了解各变量如何影响总分及具体的影响程度,因此传统金融机构更倾向于使用逻辑回归建模。
而机器学习算法则相对较为封闭,尽管可以大致判断变量特征对评分结果的正向或负向影响,但很难精确量化和解释其具体作用机制。一旦评分出现波动,也难以准确追踪到是哪个特征造成了变化及其影响范围,这一点上机器学习模型不如逻辑回归模型直观。然而,在过去十年间,随着互联网金融平台及海外信贷行业的快速发展,机器学习算法在信贷风控领域的应用日益广泛,尤其是在海外市场,多数的风控岗位招聘都会提到对机器学习技能的要求,因此重新深入学习机器学习算法显得十分必要。
为了加深理解,本篇中引用了多张网络图片,若涉及版权问题,请联系我删除。
本期内容主要为初级科普教材,重点介绍机器学习的基本概念,包括以下部分:
- (一)什么是机器学习
- (二)机器学习算法基本开发流程
- (三)机器学习类型:监督学习、无监督学习
- (四)集成学习:stacking、bagging、boosting
- (五)机器学习经典入门算法详解
- (六)模型评估
一、什么是机器学习
在传统的编程方式中,我们通过设定明确的规则指导计算机执行任务,而机器学习则采取了一种不同的方法:它让计算机从数据中自我学习这些规则。
一个广为接受的定义来自于计算机科学家汤姆·米切尔(Tom M. Mitchell):
“当通过经验E在完成任务T上的表现,根据性能度量P有所提升时,我们说一个程序从经验E中学习了。”
简而言之,机器学习是利用算法分析数据、从中学习,并据此做出预测或推断的过程。

二、机器学习算法基本开发流程
虽然机器学习与逻辑回归评分卡的开发步骤大体相同——前期文章【风控模型专题:评分模型开发流程】中对此进行了详细说明,但为了完整起见,我们在这里概述一下整个迭代过程:
- 数据收集与目标定义:获取高质量的数据是基础,因为数据构成了模型的“燃料”。
- 数据预处理与特征工程:包括清洗(如处理缺失值、异常值)、格式转换和从原始数据中提取或构建有助于预测的特征。这是整个过程中最耗时但也是最关键的部分。
- 模型选择:依据问题类型挑选适合的算法。
- 样本划分:将数据集分为训练集和测试集。
- 模型训练:使用选定的数据让模型学习其中的模式。
- 模型评估:利用未参与训练的数据检验模型表现。
- 超参数调优:调整模型内部参数,以优化性能。
- 预测/推断:将经过训练的模型应用于新的、未知数据中进行预测。
三、机器学习类型:监督学习与无监督学习
根据是否存在已知的结果标签,机器学习算法大致可以分为两类:监督学习和无监督学习。在监督学习中,算法利用特征变量来学习与之对应的已知结果;而无监督学习则没有已知结果的指导,算法需从特征变量中发现模式。
1. 无监督学习(Unsupervised Learning)
这种学习方式不需要预先教导机器,而是让其自主探索数据中的潜在结构。主要思路是提供给模型仅有特征而无标签的数据集,使它能自行识别出内在的规律。
具体应用包括:
- 聚类(Clustering):根据相似性将数据划分成不同的类别,目的是让同一类别内的对象更加相似,不同类别之间的差异更大。例如,对消费者进行细分以实现更精准的市场定位。
- 降维(Dimensionality Reduction):在尽可能保留原始信息的前提下减少特征维度,这有助于数据可视化或提升后续模型处理效率。如主成分分析法。
以下是一个无监督学习的具体案例图示:虽然所有数据点都没有标签,但它们依然形成了明显的群组结构,即相似类型的实例倾向于聚集在一起。将这些未标记的数据点按照其自然的群集进行分组的过程称为聚类(Clustering)。

无监督学习中最典型的算法是K 均值聚类 (K-means Clustering),这是一种广泛应用的聚类技术。它接收一组未标记的数据,通过迭代过程将数据分成预定数量的集群。具体步骤如下:
- 首先随机选取K个点作为初始聚类中心(cluster centroids);
- 对于每个数据样本,根据其与各中心点的距离将其分配给最近的一个中心;所有被同一个中心点关联的数据形成一个集群。
- 重新计算每个集群的平均值,并将该中心点移动至新的位置。这一过程会重复进行直至满足停止条件。
以下两张图展示了K均值聚类算法的迭代过程,首先随机选取K个中心点,然后依据计算结果调整这些点的位置,重复此过程直至这K个点周围的全部数据均为同一类别。
2. 监督学习(Supervised Learning)
提前对机器进行指导。我们拥有一个样本数据集,其中每个样本都配有相应的“正确答案”,基于这些样本来做出预测。简而言之,有监督学习相较于无监督学习额外包含了一个能够描述数据特性的标签,使模型可以掌握从特征到标签的映射过程。就像教师给学生提供一套附带答案的练习题,学生通过做题学习如何解题。
监督学习主要分为两类应用:
- 分类(Classification):预测离散类别。例如,判断邮件是“垃圾邮件”还是“非垃圾邮件”;识别图像是“猫”或“狗”。
- 回归(Regression):预测连续值。比如,预测明天的温度、房屋售价等。
在信贷风险控制模型领域,算法主要用于解决0-1分类问题,即辨别好坏样本,因此该领域的算法以分类为主,常见的入门级方法有:逻辑回归、k最近邻算法、决策树等。值得指出的是,尽管k最近邻算法在实际应用中效用有限,但在学术研究中有其重要性。
四、集成学习(Ensemble Learning):stacking、bagging、boosting
集成学习的核心理念是“众人拾柴火焰高”。通过合并多个较为简单、效能较低的模型(即‘基学习器’),形成一个更为高效且精准的模型。
在探讨这三大类方法之前,先了解一下模型的方差和偏差,集成学习主要是为了均衡这两者的问题。
模型的偏差:
训练所得模型在训练集上的精确度。解释模型的方差前,需重新考虑模型:模型可视为随机变量。设样本量为n的训练集是一个随机变量集合(X1, X2, …, Xn),那么模型是这些随机变量的函数(本身依然是随机变量):F(X1, X2, …, Xn)。抽样的不确定性导致了模型的变异性。
研究模型方差的实际意义在于,我们认为方差越大的模型越容易发生过拟合:假设存在两个训练集A和B,经由A训练出的模型Fa与通过B训练得到的Fb差异显著,这表明Fa在集合A上表现更优,而Fb则相反,这就是所谓的过拟合现象。
集成学习旨在平衡模型的偏差与方差。通常认为,集成框架中的基模型是效能较低(训练集上的准确度不高)但稳定性强(抗过拟合能力强)的模型。然而,并非所有集成学习结构中的基模型都是弱模型,bagging和stacking中使用的基模型较为强大(偏差低、方差高),而boosting则使用弱模型。
三大主流集成方法:
- Bagging(装袋)
思想:通过自抽样法从训练集中抽取多个不同的数据子集,每个子集独立训练一个基学习器,最终通过投票(分类任务)或平均(回归任务)合并预测结果。
目标:减少方差,降低过拟合风险。特别适合于容易发生过拟合的模型,如决策树。
典型算法:随机森林,它将Bagging思想与决策树巧妙结合,在训练每棵树时还对特征进行随机选取,进一步提升了多样性。
- Boosting(提升)
思想:依次训练一系列基学习器。每个后续模型将更专注于前一个模型预测错误的样本,这是一个“从失败中学习”的过程。
目标:减少偏差,将多个“弱学习器”组合成一个“强学习器”。
典型算法:AdaBoost, Gradient Boosting Machine (GBM), XGBoost, LightGBM。这些是当前数据科学竞赛和工业领域最强大且使用频繁的算法之一,在风控领域亦广泛应用。
- Stacking(堆叠)
思想:结合不同模型。首先利用多种不同的基学习器(如逻辑回归、决策树、SVM等)对原始数据进行预测,然后将它们的输出作为新的特征输入到一个高阶模型中进一步训练,以获得最终的预测结果。
目标:发挥各模型的优势,互补短板。
比喻:如同委员会中的“主席”,他听取所有专家的意见后作出决定。
利用训练好的所有基础模型对训练基进行预测,第j个基础模型对第i个训练样本的预测值将作为新训练集中第i个样本的第j个特征值。最终基于新的训练集进行训练。同样地,在预测过程中,也需要先经过所有基础模型的预测形成新的测试集,最后再对测试集进行预测。
五、机器学习经典入门算法详解
无监督学习中的典型算法K 均值聚类(K-means Clustering)已在上文详细说明。本部分内容主要讨论有监督学习的算法。
-
逻辑回归 – 最简且常用的分类方法
注意:尽管名称为“回归”,但它实际上是一个经典的分类算法,主要用于二元分类问题。思想:线性回归的输出是连续值,不适用于分类。逻辑回归在此基础上加入了Sigmoid函数,将连续输出映射到(0,1)区间内,可以理解为属于某个类别的“概率”。模型:P(class=1) = Sigmoid(w*x + b)决策规则:如果概率 > 0.5,则预测结果为类别1;反之则为0。在风险控制中使用的则是预测的概率,并将其转换成评分值。例子:根据肿瘤的尺寸判断其是良性(0)还是恶性(1)。
-
K-近邻算法(k-Nearest Neighbor algorithm,KNN) - 简单有效的分类工具
思想:“物以类聚”。一个数据点的类别由其最近邻居的主要投票决定。即如果一个样本在特征空间中的k个最相似(即特征空间中最接近)的数据点大多数属于某一个类别,则该样本也应归为此类。算法计算步骤:
- 确定待预测的样本。
- 从训练集中找到与之最相似的K个样本(即“最近邻”)。
- 统计这K个样本中哪个类别最多,就将此类别赋予待预测样本。
例如下图中的五角星图形应该归为A还是B?
当K=3时,五角星属于B;而当K=6时,它则属于A。因此选择合适的K值非常重要。
-
决策树 - 易于理解的“如果-那么”规则
思想:通过一系列“如果-那么”的规则递归地分割数据,最终构建出一棵树形结构。构成:包含根节点、内部节点和叶节点。每个内部节点代表一次特征测试,各分支表示不同的测试结果,而每个叶节点则对应一个特定的类别。优势:直观易懂,便于解释且不需要复杂的数据预处理。示例:预测一个人是否会购买电脑。决策树可能首先根据“年龄”进行分割,接着依据“收入”,最后基于“是否为学生”做出最终判断。
决策树可以分为分类树和回归树两种类型,其中前者主要用于二元分类任务,后者则用于连续特征的预测。以下是一个典型的分类树预测流程:
-
随机森林(Random Forest,Bagging算法) - 以多数决胜
思想:“三个臭皮匠顶一个诸葛亮”。通过构建大量决策树,并让每棵树独立做出预测,然后采用投票法(分类任务中)或平均值法(回归任务中)来得出最终结果,从而获得优于单棵决策树的性能和稳定性。
核心机制:双重随机化
为了确保森林中的每棵树“各异而同”,避免所有树木犯同样的错误,在训练过程中引入了两种随机性:- 数据随机(Bagging):从原始训练集中无放回地抽取样本,用于构建不同的树。
- 特征随机:在决策树分裂节点时,并非总是选择最佳特征,而是先从中随机选取部分特征子集,再从这个集合中挑选出最优的进行划分。
训练流程:
- 利用自助采样法从原始数据集中随机抽取n个样本作为单个训练子集。
- 用此训练子集构建一棵决策树。在每个节点的分裂过程中:
a. 随机选取m个特征(通常为总特征数的平方根或自然对数值)。
b. 从中选出最佳的分割点。 - 重复上述1和2步,生成上百乃至上千棵决策树,共同组成“森林”。
- 预测时,每棵树都会给出自己的判断结果,最终通过多数决(分类任务中)或取平均值(回归任务中)决定最后的预测结果。
简单示例:假设要预测某人是否会贷款违约。
1) 树1基于子集1学习到:如果年龄>40岁且年收入>5万,则不会违约。
2) 树2根据子集2了解到:若负债率<50%且信用评分>700,则不会违约。
3) 树3从子集3中学到:如果无房产且工作不满一年,则会违约。
4) …树N
当新的客户申请时,所有树木同时进行评估。若大多数树木预测为“不违约”,则随机森林的最终输出就是“不违约”。
随机森林的优势:效能强大:通常能达到极好的表现,是常见的基准模型之一。抗过拟合能力强:双重随机化有效减少了模型方差,使其不易过度拟合。并行训练效率高:每棵树可以独立构建,提高训练速度。
五、梯度提升决策树(GBDT)- 从失败中学习的高级选手
思想:“失败乃成功之母”。GBDT是一种Boosting集成技术。它...
有序地
训练一系列决策树,每棵新树的目标是拟合前一棵树的残差(即预测值与实际值的差异)。通过这种“查漏补缺”的方式,逐步减少误差,将多个弱学习器组合成一个强学习器。
核心机制:梯度下降与残差拟合
- 它以模型的损失函数(如均方误差、交叉熵)的负梯度作为当前模型与实际值之间“残差”的近似值。
- 每棵新树的目标是拟合这个“负梯度”(即残差的方向)。
训练过程(以回归问题为例):
- 初始化:使用一个简单的模型(如常数值,所有样本的平均值)作为初始预测。F?(x) = mean(y)。
- 迭代构建M棵树(for m = 1 to M):
- 计算残差(负梯度):对于每个样本 i,计算 r?? = y? - F???(x?)。这代表了当前模型在样本 i 上的错误。
- 拟合残差:用一棵新的决策树 h?(x) 去学习这些残差 r??。这棵树的目标不是预测 y,而是预测当前模型的“误差”。
- 更新模型:将新树的预测结果乘以一个学习率(η)(一个小数,如0.1),然后加到之前的模型上:F?(x) = F???(x) + η * h?(x)。
- 经过M轮迭代后,最终的模型是所有树的预测结果的加权和:F(x) = F?(x) + η * h?(x) + η * h?(x) + … + η * h_M(x)。
一个生动的例子:
预测年龄。
实际年龄:25岁。
- 第一棵树:预测为20岁。
残差 = 5岁
(预测偏低)。 - 第二棵树:不去直接预测年龄,而是学习“前一棵树的残差”。它发现上一个模型在“有工作经验”的人身上预测偏低,于是针对这类人输出一个正的值(比如+3岁)。此时,组合预测为 20 + 0.1*3 = 20.3 岁。(学习率η=0.1,防止步子迈得太大)
- 第三棵树:继续学习新的残差(现在是 25 - 20.3 = 4.7 岁)。它可能发现“高学历”也是一个被忽略的因素,于是再输出一个正值。
- … 如此反复,每棵新树都在努力修正前几棵树的错误,使最终预测值越来越接近25岁。
梯度提升决策树(GBDT)算法的优势:
- 精度极高:通常是所有传统机器学习算法中预测精度最高的之一。
- 灵活性好:可以处理各种类型的数据,并可以自定义损失函数。
与其他提升算法的关系:
XGBoost, LightGBM, CatBoost 这些都是GBDT的“工业级”实现,它们在原始GBDT的基础上,加入了正则化、对缺失值的处理、更高效的并行策略等优化,使其速度更快、效果更好、应用更广,成为了当今数据科学竞赛和工业界应用的“大杀器”。
随机森林与梯度提升决策树两类算法的差异对比:

六、模型评估
模型评估在之前文章【风控模型专题:模型开发与模型评估指标】中已有详细介绍,机器学习算法的评估也是类似的,主要评估指标AUC与KS,风控模型中还涉及一些其他评估指标,感兴趣可以查阅相关文章,这里不再重复介绍。
这里主要介绍K折交叉验证的评估思想:
K折交叉验证(K-fold Cross Validation),初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,平均K次的结果或者使用其它结合方式,最终得到一个单一预测。
这个方法的优势在于,同时重复运用随机生成的子样本进行训练和验证,每次的结果验证一次,10折交叉验证是最常用的。
K折交叉验证图例如下:

K折交叉验证可以较大程度避免模型过拟合,但如果要确保模型的泛化能力,还是要留OOT验证样本,在跨时间样本上验证模型的效果。
本期到这里就结束了,写得有点长了。
另外有一个小疑问,有没有做海外的小伙伴来解惑一下:就是海外的风控模型中,大部分用的是机器学习的算法,为何会抛弃逻辑回归这类简单且容易理解和解释的算法呢?
最后
选择AI大模型就是选择未来!最近两年,大家都可以看到AI的发展有多迅速,时代在瞬息万变,我们又为何不给自己多一个选择,多一个出路,多一个可能呢?
与其在传统行业里停滞不前,不如尝试一下新兴行业,而AI大模型恰恰是这两年的风口,人才需求非常紧迫!
由于文章篇幅有限,在这里我就不一一向大家展示了,学习AI大模型是一项系统工程,需要时间和持续的努力。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。
【2025最新】AI大模型全套学习资料(可无偿送):LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等,从入门到进阶再到精通,超全面存下吧!
获取方式:有需要的小伙伴,可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
包括:AI大模型学习路径、LLM面试指南、零基础教学视频、大模型PDF书籍/笔记、大模型实践案例集锦、AI产品经理资料等
AI大模型的学习之路充满挑战,但只要你坚持不懈,就一定能有所收获。

雷达卡


京公网安备 11010802022788号







