平衡偏差和方差的概念,有助于理解过拟合现象。
避免过度拟合的方法之一是使用交叉验证,这有助于估计测试集的误差,并确定哪些参数最适合您的模型。
本文将重点介绍一种有助于避免过度拟合并提高模型可解释性的技术。
正则化
这是一种回归形式,它将系数估计约束/正则化或缩小到零。换句话说,这种技术不鼓励学习更复杂或更灵活的模型,以避免过度拟合的风险。
线性回归的简单关系如下所示。这里 Y 表示学习关系,β 表示不同变量或预测变量 (X) 的系数估计值。
Y ≈ β0 + β1X1 + β2X2 +… + βpXp
拟合过程涉及损失函数,称为残差平方和或 RSS。选择系数,使它们最小化这个损失函数。
现在,这将根据您的训练数据调整系数。如果训练数据中有噪声,那么估计的系数就不能很好地推广到未来的数据。这就是正则化的用武之地,它将这些学习到的估计缩小或正则化到零。
岭回归
现在,通过最小化这个函数来估计系数。在这里,λ 是调整参数,它决定了我们想要在多大程度上惩罚我们模型的灵活性。模型灵活性的增加是通过其系数的增加来表示的,如果我们想最小化上述函数,那么这些系数需要很小。这就是岭回归技术如何防止系数上升得太高。此外,请注意,我们缩小了每个变量与响应的估计关联,除了截距 β0,这个截距是当 xi1 = xi2 = …= xip = 0 时响应的平均值的度量。
当 λ = 0 时,惩罚项没有影响,岭回归产生的估计值将等于最小二乘。然而,随着λ→∞,收缩惩罚的影响增加,岭回归系数估计将接近于零。可以看出,选择一个好的 λ 值是至关重要的。交叉验证为此目的派上用场。这种方法产生的系数估计也称为 L2 范数。
由标准最小二乘法产生的系数是尺度等变的,即如果我们将每个输入乘以 c,则相应的系数将按 1/c 的因子进行缩放。因此,无论预测变量如何缩放,预测变量与系数 (Xjβj) 的乘积保持不变。但是,岭回归并非如此,因此,在执行岭回归之前,我们需要对预测变量进行标准化或将预测变量带到相同的尺度。
套索
Lasso 是另一种变体,其中上述功能被最小化。很明显,这种变化与岭回归的区别仅在于惩罚高系数。它使用|βj|(模数)而不是β的平方作为惩罚。在统计学中,这被称为 L1 范数。
让我们从不同的角度看一下上述方法。岭回归可以被认为是求解一个方程,其中系数的平方和小于或等于 s。Lasso 可以被认为是一个方程,其中系数的模数之和小于或等于 s。这里,s 是每个收缩因子 λ 值都存在的常数。这些方程也称为约束函数。
考虑它们是给定问题中的 2 个参数。然后根据上述公式,岭回归表示为 β12 + β22 ≤ s。这意味着岭回归系数对于位于由 β12 + β22 ≤ s 给出的圆内的所有点具有最小的 RSS(损失函数)。
类似地,对于 lasso,方程变为,|β1|+|β2|≤ s。这意味着套索系数对于位于由 |β1|+|β2|≤ s 给出的菱形内的所有点具有最小的 RSS(损失函数)。
相关帖子DA内容精选
|