人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析与数据挖掘 › 机器学习中的正则化

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: 时光永痕

1559 0

[数据挖掘新闻] 机器学习中的正则化 [推广有奖]

0关注
14粉丝

svip3

学术权威

12%

（VIP/贵宾）四级

92%

威望: 0 级
论坛币: 26 个
通用积分: 49.8622
学术水平: 4 点
热心指数: 4 点
信用等级: 4 点
经验: 34070 点
帖子: 2731
精华: 0
在线时间: 318 小时
注册时间: 2020-7-21
最后登录: 2024-6-17

楼主

时光永痕

发表于 2022-5-7 16:30:24 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

训练机器学习模型的主要方面之一是避免过度拟合。如果过拟合，模型的准确率会很低。发生这种情况是因为您的模型过于努力地捕捉训练数据集中的噪声。我们所说的噪声是指那些并不真正代表数据真实属性的数据点，而是随机的机会。学习这些数据点可以使您的模型更加灵活，但存在过度拟合的风险。

平衡偏差和方差的概念，有助于理解过拟合现象。

避免过度拟合的方法之一是使用交叉验证，这有助于估计测试集的误差，并确定哪些参数最适合您的模型。

本文将重点介绍一种有助于避免过度拟合并提高模型可解释性的技术。

正则化

这是一种回归形式，它将系数估计约束/正则化或缩小到零。换句话说，这种技术不鼓励学习更复杂或更灵活的模型，以避免过度拟合的风险。

线性回归的简单关系如下所示。这里 Y 表示学习关系，β 表示不同变量或预测变量 (X) 的系数估计值。

Y ≈ β0 + β1X1 + β2X2 +… + βpXp

拟合过程涉及损失函数，称为残差平方和或 RSS。选择系数，使它们最小化这个损失函数。

现在，这将根据您的训练数据调整系数。如果训练数据中有噪声，那么估计的系数就不能很好地推广到未来的数据。这就是正则化的用武之地，它将这些学习到的估计缩小或正则化到零。

岭回归

现在，通过最小化这个函数来估计系数。在这里，λ 是调整参数，它决定了我们想要在多大程度上惩罚我们模型的灵活性。模型灵活性的增加是通过其系数的增加来表示的，如果我们想最小化上述函数，那么这些系数需要很小。这就是岭回归技术如何防止系数上升得太高。此外，请注意，我们缩小了每个变量与响应的估计关联，除了截距 β0，这个截距是当 xi1 = xi2 = …= xip = 0 时响应的平均值的度量。

当 λ = 0 时，惩罚项没有影响，岭回归产生的估计值将等于最小二乘。然而，随着λ→∞，收缩惩罚的影响增加，岭回归系数估计将接近于零。可以看出，选择一个好的 λ 值是至关重要的。交叉验证为此目的派上用场。这种方法产生的系数估计也称为 L2 范数。

由标准最小二乘法产生的系数是尺度等变的，即如果我们将每个输入乘以 c，则相应的系数将按 1/c 的因子进行缩放。因此，无论预测变量如何缩放，预测变量与系数 (Xjβj) 的乘积保持不变。但是，岭回归并非如此，因此，在执行岭回归之前，我们需要对预测变量进行标准化或将预测变量带到相同的尺度。

套索

Lasso 是另一种变体，其中上述功能被最小化。很明显，这种变化与岭回归的区别仅在于惩罚高系数。它使用|βj|(模数)而不是β的平方作为惩罚。在统计学中，这被称为 L1 范数。

让我们从不同的角度看一下上述方法。岭回归可以被认为是求解一个方程，其中系数的平方和小于或等于 s。Lasso 可以被认为是一个方程，其中系数的模数之和小于或等于 s。这里，s 是每个收缩因子 λ 值都存在的常数。这些方程也称为约束函数。

考虑它们是给定问题中的 2 个参数。然后根据上述公式，岭回归表示为 β12 + β22 ≤ s。这意味着岭回归系数对于位于由 β12 + β22 ≤ s 给出的圆内的所有点具有最小的 RSS（损失函数）。

类似地，对于 lasso，方程变为，|β1|+|β2|≤ s。这意味着套索系数对于位于由 |β1|+|β2|≤ s 给出的菱形内的所有点具有最小的 RSS（损失函数）。

相关帖子DA内容精选

2022年300个以上最佳免费数据科学课

大厂数据分析面试指南！来自亚马逊、谷歌、微软、头条、美团的面试问题！

机器学习模型方法总结

历史最全机器学习/深度学习/人工智能专业术语表中英对照表

机器学习如何应用于商业场景？三个真实的商业项目

数据工作者的自我修养 | 哪些技能是必不可少的？

《汗牛充栋：数据分析书籍分享》CDA网校新课上线

文本挖掘常用的107个语料库

一图读懂“东数西算”工程

零基础转行数据分析，看这篇文章就够了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：机器学习正则化 LASSO 最小二乘法训练数据集