楼主: 时光永痕
1559 0

[数据挖掘新闻] 机器学习中的正则化 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)四级

92%

威望
0
论坛币
26 个
通用积分
49.8622
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
318 小时
注册时间
2020-7-21
最后登录
2024-6-17

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
训练机器学习模型的主要方面之一是避免过度拟合。如果过拟合,模型的准确率会很低。发生这种情况是因为您的模型过于努力地捕捉训练数据集中的噪声。我们所说的噪声是指那些并不真正代表数据真实属性的数据点,而是随机的机会。学习这些数据点可以使您的模型更加灵活,但存在过度拟合的风险。


平衡偏差和方差的概念,有助于理解过拟合现象。

避免过度拟合的方法之一是使用交叉验证,这有助于估计测试集的误差,并确定哪些参数最适合您的模型。

本文将重点介绍一种有助于避免过度拟合并提高模型可解释性的技术。

正则化

这是一种回归形式,它将系数估计约束/正则化或缩小到零。换句话说,这种技术不鼓励学习更复杂或更灵活的模型,以避免过度拟合的风险。

线性回归的简单关系如下所示。这里 Y 表示学习关系,β 表示不同变量或预测变量 (X) 的系数估计值。

Y ≈ β0 + β1X1 + β2X2 +… + βpXp

拟合过程涉及损失函数,称为残差平方和或 RSS。选择系数,使它们最小化这个损失函数。

现在,这将根据您的训练数据调整系数。如果训练数据中有噪声,那么估计的系数就不能很好地推广到未来的数据。这就是正则化的用武之地,它将这些学习到的估计缩小或正则化到零。

岭回归

现在,通过最小化这个函数来估计系数。在这里,λ 是调整参数,它决定了我们想要在多大程度上惩罚我们模型的灵活性。模型灵活性的增加是通过其系数的增加来表示的,如果我们想最小化上述函数,那么这些系数需要很小。这就是岭回归技术如何防止系数上升得太高。此外,请注意,我们缩小了每个变量与响应的估计关联,除了截距 β0,这个截距是当 xi1 = xi2 = …= xip = 0 时响应的平均值的度量。

当 λ = 0 时,惩罚项没有影响,岭回归产生的估计值将等于最小二乘。然而,随着λ→∞,收缩惩罚的影响增加,岭回归系数估计将接近于零。可以看出,选择一个好的 λ 值是至关重要的。交叉验证为此目的派上用场。这种方法产生的系数估计也称为 L2 范数。

由标准最小二乘法产生的系数是尺度等变的,即如果我们将每个输入乘以 c,则相应的系数将按 1/c 的因子进行缩放。因此,无论预测变量如何缩放,预测变量与系数 (Xjβj) 的乘积保持不变。但是,岭回归并非如此,因此,在执行岭回归之前,我们需要对预测变量进行标准化或将预测变量带到相同的尺度。

套索

Lasso 是另一种变体,其中上述功能被最小化。很明显,这种变化与岭回归的区别仅在于惩罚高系数。它使用|βj|(模数)而不是β的平方作为惩罚。在统计学中,这被称为 L1 范数。

让我们从不同的角度看一下上述方法。岭回归可以被认为是求解一个方程,其中系数的平方和小于或等于 s。Lasso 可以被认为是一个方程,其中系数的模数之和小于或等于 s。这里,s 是每个收缩因子 λ 值都存在的常数。这些方程也称为约束函数。

考虑它们是给定问题中的 2 个参数。然后根据上述公式,岭回归表示为 β12 + β22 ≤ s。这意味着岭回归系数对于位于由 β12 + β22 ≤ s 给出的圆内的所有点具有最小的 RSS(损失函数)。

类似地,对于 lasso,方程变为,|β1|+|β2|≤ s。这意味着套索系数对于位于由 |β1|+|β2|≤ s 给出的菱形内的所有点具有最小的 RSS(损失函数)。

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 正则化 LASSO 最小二乘法 训练数据集

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-18 00:54