一、知识框架概览
本部分内容涵盖以下核心知识点:
- 线性回归模型的基本原理与应用
- 最小二乘法在参数估计中的作用
- 正则化技术及其变体(Ridge 和 Lasso 回归)
二、正文详解
1. 线性回归模型
关键词:线性关系、回归系数、基函数、非线性变换
线性回归的定义
线性回归是一种用于预测连续型输出变量的统计方法。其核心思想是通过构建一个线性方程,使该方程能够尽可能准确地拟合输入特征与目标值之间的关系。
生活中常见的应用场景包括:利用房屋面积来预估房价、根据学习时长推测考试得分、基于广告投入量预测销售业绩等。
基本数学形式
假设我们有一个包含 N 个样本的数据集 D = {(yi, xi1, ..., xiD)},其中:
- yi 表示因变量(即待预测的目标,如价格或成绩);
- xi1, ..., xiD 是自变量(也称特征,例如房间数量、学习时间等)。
线性回归假设输出 yi 与输入向量 xi(由 D 个特征组成)之间存在如下线性关系:
yi = β0 + β1xi1 + β2xi2 + ... + βDxiD = xiTβ
其中:
- β0 为截距项,表示当所有特征取值为零时的基准输出;
- β1, ..., βD 为各特征对应的回归系数,反映其对结果的影响程度;
- β = [β0, β1, ..., βD]T 构成完整的参数向量。
实例说明:房价预测
考虑使用房屋面积 (x1) 和房间数 (x2) 来预测总价 (y),模型可写为:
y = β0 + β1·x1 + β2·x2
设定参数如下:
- β0 = 50:即使无面积和房间,仍存在基础建造成本(单位:万元);
- β1 = 0.5:每增加 1 平方米,房价上升 0.5 万元;
- β2 = 10:每多出一间房,房价增加 10 万元。
若某房产面积为 100 平方米且有 3 个房间,则总房价为:
y = 50 + 0.5 × 100 + 10 × 3 = 130 万元
引入基函数处理非线性关系
问题提出:现实世界中许多关系并非严格线性。例如,随着房屋面积增大,单位面积单价可能递减,呈现非线性趋势。
解决策略:采用基函数(basis function)对原始输入进行非线性映射,再在此基础上执行线性回归。
一般模型形式变为:
yi = φ(xi)Tβ
其中 φ(xi) 表示对输入 xi 进行的非线性变换。
常用基函数类型
- 多项式基函数:
φj(x) = xj,可用于拟合曲线关系。
例如:φ(x) = [1, x, x, x]T → 模型变为:y = β0 + β1x + β2x + β3x
[此处为图片1] - 高斯基函数:
φj(x) = exp{ - (x - μj) / (2s) }
该函数在中心点 μj 附近响应较强,适合捕捉局部模式。
[此处为图片2] - S形(Sigmoid)基函数:
φj(x) = σ((x - μj)/s),常用于平滑过渡区域建模。
[此处为图片3]
2. 最小二乘法
如何确定最优参数?
在线性回归中,目标是找到一组参数 β,使得模型预测值与真实观测值之间的误差平方和最小。
最小二乘法原理
定义损失函数为残差平方和(RSS):
RSS(β) = Σ(yi - xiTβ)
通过求解该函数的最小值点(通常对 β 求导并令导数为零),可以获得最优参数估计:
β = (XTX)-1XTy
此解称为普通最小二乘解(OLS),适用于特征数少于样本数且设计矩阵满秩的情况。
3. 正则化方法
什么是过拟合?
当模型过于复杂(如使用高阶多项式或过多特征)时,可能会完美拟合训练数据,但在新数据上表现很差——这种现象称为“过拟合”。
过拟合导致模型泛化能力下降,无法有效推广到未知样本。
正则化:抑制过拟合的有效手段
为了提升模型稳定性与泛化性能,可在损失函数中加入惩罚项,限制参数大小,这种方法称为正则化。
L2 正则化(Ridge 回归)
在最小二乘基础上添加 L2 范数惩罚项:
RSS_Ridge = Σ(yi - xiTβ) + λΣβj
其中 λ ≥ 0 控制正则化强度:
- λ 较大 → 参数被压缩得更小,模型更简单;
- λ = 0 → 退化为普通最小二乘。
Ridge 回归能有效降低方差,但不会产生稀疏解(即不会自动剔除特征)。
[此处为图片4]L1 正则化(Lasso 回归)
使用 L1 范数作为惩罚项:
RSS_Lasso = Σ(yi - xiTβ) + λΣ|βj|
Lasso 的关键优势在于它倾向于将部分系数压缩至恰好为零,从而实现特征选择,生成稀疏模型。
[此处为图片5]L1 与 L2 的对比
| 特性 | L1 正则化(Lasso) | L2 正则化(Ridge) |
|---|---|---|
| 是否产生稀疏解 | 是 | 否 |
| 能否自动选特征 | 能 | 不能 |
| 解的唯一性 | 可能不唯一 | 唯一 |
| 适用场景 | 特征多且希望简化模型 | 多重共线性强的数据 |
如何选择正则化系数 λ?
λ 的选择直接影响模型复杂度:
- λ 太小 → 正则化效果弱,易过拟合;
- λ 太大 → 参数过度收缩,可能导致欠拟合。
常用选择方法为交叉验证(Cross Validation),通过在多个候选 λ 值中测试模型在验证集上的表现,选取性能最佳者。
在回归建模中,特征变换是一种常用手段。例如,基函数 $\phi_j(x)$ 可表示为:
$$ \phi_j(x) = \sigma\left(\frac{x - \mu_j}{s}\right) $$
其中激活函数 $\sigma(a)$ 定义为 S 型函数:
$$ \sigma(a) = \frac{1}{1 + e^{-a}} $$
该函数具有平滑过渡特性,适合用于构建连续可微的非线性映射。
[此处为图片1]
利用多项式进行非线性关系拟合
以房价与房屋面积的关系为例,假设二者之间存在非线性趋势。此时可以引入高阶项来增强模型表达能力。
- 原始输入特征:$x$(表示面积)
- 构造的基函数向量:$\phi(x) = [1,\, x,\, x^2]^T$
- 对应的回归模型形式: $$ y = \beta_0 + \beta_1 x + \beta_2 x^2 $$
尽管该模型对原始变量 $x$ 表现为非线性,但其对变换后的特征 $\phi(x)$ 是线性的,且参数 $\beta$ 的关系仍保持线性结构,因此仍属于“线性回归”范畴。
最小二乘法原理
关键词:误差平方和、偏导数、参数估计、闭式解
线性回归的核心目标是寻找最优参数向量 $\beta$,使得预测输出 $\hat{y}_i$ 尽可能接近真实观测值 $y_i$。
定义第 $i$ 个样本的预测误差为:
$$ e_i = y_i - f(x_i, \beta) = y_i - \hat{y}_i $$
最小二乘法的基本思想是:使所有样本的误差平方和达到最小。
目标函数(即残差平方和)为:
$$ S = \sum_{i=1}^{N} e_i^2 = \sum_{i=1}^{N} (y_i - f(x_i, \beta))^2 $$
使用平方误差的原因包括:
- 避免正负误差相互抵消;
- 对较大误差施加更强惩罚(因平方放大效应);
- 数学处理方便,平方函数处处可导,利于优化求解。
通过对待估参数 $\beta_d$ 求偏导并令其为零:
$$ \frac{\partial S}{\partial \beta_d} = 0, \quad d = 0, 1, \ldots, D $$
可得到关于参数的解析解(又称闭式解),无需迭代过程。
对于线性模型 $f(x_i, \beta) = \phi(x_i)^T \beta$,其参数估计结果为:
$$ \hat{\beta} = (\Phi^T \Phi)^{-1} \Phi^T y $$
其中:
- $\Phi$ 为设计矩阵(每一行对应一个样本的基函数输出);
- $y$ 为目标变量组成的列向量。
实例:简单线性回归计算
考虑单变量情形,设模型为:
$$ y = \beta_0 + \beta_1 x $$
给定三组数据点:$(1, 2),\, (2, 3),\, (3, 5)$
应用最小二乘法可求得参数估计值:
$$ \beta_0 = 0.5,\quad \beta_1 = 1.5 $$
因此,拟合出的直线方程为:
$$ y = 0.5 + 1.5x $$
优点总结:
- 存在解析解,计算高效;
- 无需迭代,一步求解;
- 理论上能保证获得全局最优解。
缺点分析:
- 涉及矩阵求逆 $(\Phi^T \Phi)^{-1}$,当特征维度较高时计算成本大;
- 对异常值敏感,因平方误差会放大离群点的影响。
正则化方法概述
关键词:过拟合、L1 正则化、L2 正则化、Lasso 回归、Ridge 回归
过拟合(Overfitting) 指的是模型在训练集上表现优异,但在新样本上的泛化能力较差的现象。
类比理解:如同学生仅靠死记硬背完成练习题,面对新题目则无法应对。
导致过拟合的主要因素包括:
- 训练数据量不足;
- 模型复杂度过高(如参数过多);
- 回归系数绝对值过大,引起拟合曲线剧烈震荡。
举例说明(多项式拟合房价数据):
- 欠拟合:采用一次函数(直线)拟合 → 模型过于简单,无法捕捉趋势;
- 合适拟合:采用二次函数(抛物线)→ 能较好反映整体变化规律;
- 过拟合:使用十次多项式 → 曲线过度波动,虽完美匹配训练点,但外推性能差。
正则化:缓解过拟合的有效策略
正则化通过在目标函数中加入惩罚项,控制模型复杂度,从而提升泛化能力。
核心理念:不仅要求预测误差小,还希望模型参数不能过大。
带正则项的目标函数一般形式为:
$$ S' = \sum_{i=1}^{N} (y_i - f(x_i, \beta))^2 + \lambda \cdot \text{惩罚项} $$
其中:
- 第一部分为数据拟合项(误差平方和);
- 第二部分为正则惩罚项;
- $\lambda$ 控制正则强度,平衡拟合精度与模型复杂度。
L2正则化(Ridge回归)通过引入惩罚项来控制模型复杂度,其中正则化系数 λ 起到调节惩罚强度的作用。该方法的优化目标是在最小化预测误差的同时,限制模型参数的大小。
其目标函数形式为:
S' = ∑i=1N (yi f(xi, β)) + λ||β||
其中,||β|| 表示参数向量 β 的L2范数平方,计算方式为:
||β|| = β + β + ... + βD = βTβ
[此处为图片1]
L2正则化的主要特性包括:促使所有参数趋向于更小的值,但通常不会完全变为零;由于采用平方项,对异常值较为敏感;解具有稳定性且唯一;适用于特征数量较多且多数特征均有贡献的情形。
举例说明:
- 当 λ = 0.1 时,若原始参数为 β = 100,β = 50
- 经过L2正则化后可能变为 β = 10,β = 5 —— 数值显著缩小,但仍保持非零状态
相比之下,L1正则化(Lasso回归)使用不同的惩罚机制,其惩罚项基于参数的绝对值之和,即L1范数。
对应的目标函数为:
S' = ∑i=1N (yi f(xi, β)) + λ||β||
其中,||β|| 定义为:
||β|| = |β| + |β| + ... + |βD| = ∑j |βj|
[此处为图片2]
L1正则化的特点在于:能够产生稀疏解,即将部分参数精确压缩至零;具备自动特征选择能力;因使用绝对值,对异常值更具鲁棒性;特别适合高维数据中仅有少数关键特征的情况。
例如,在一个包含100个特征的问题中,若仅10个特征真正有效,L1正则化可自动将其余90个无关特征的系数设为0,实现有效的变量筛选。
以下是L1与L2正则化的对比总结:
| 特性 | L2正则化(Ridge) | L1正则化(Lasso) |
|---|---|---|
| 参数是否可为0 | 否(接近0但不等于0) | 是(可精确为0) |
| 是否支持特征选择 | 否 | 是(自动完成) |
| 对异常值的响应 | 较敏感 | 更鲁棒 |
| 适用场景 | 所有特征均重要 | 仅部分特征重要 |
关于正则化系数 λ 的选择:
- λ = 0:无正则化,易导致过拟合
- λ 很小:轻微约束,参数略有缩减
- λ 适中:在拟合能力和泛化性能之间取得平衡
- λ 很大:过度压制参数,可能导致欠拟合
最优 λ 值通常通过交叉验证(Cross-Validation)进行选取,以确保模型在未知数据上的表现最佳。
[此处为图片3]
实际应用中的建议如下:
- 当面临大量特征并希望自动筛选出关键变量时,推荐使用L1正则化(Lasso)
- 若所有特征都被认为有用,主要目标是防止过拟合,则应选用L2正则化(Ridge)
- 此外,也可结合两者优势,采用Elastic Net方法,同时引入L1和L2惩罚项


雷达卡


京公网安备 11010802022788号







