楼主: wdxd
352 0

[其他] 【模式识别与机器学习(4)】主要算法与技术(中篇:概率统计与回归方法)之线性回归模型 [推广有奖]

  • 0关注
  • 0粉丝

准贵宾(月)

学前班

80%

还不是VIP/贵宾

-

威望
0
论坛币
997 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
30 点
帖子
2
精华
0
在线时间
0 小时
注册时间
2018-9-14
最后登录
2018-9-14

楼主
wdxd 发表于 2025-12-2 17:26:43 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

一、知识框架概览

本部分内容涵盖以下核心知识点:

  • 线性回归模型的基本原理与应用
  • 最小二乘法在参数估计中的作用
  • 正则化技术及其变体(Ridge 和 Lasso 回归)

二、正文详解

1. 线性回归模型

关键词:线性关系、回归系数、基函数、非线性变换

线性回归的定义

线性回归是一种用于预测连续型输出变量的统计方法。其核心思想是通过构建一个线性方程,使该方程能够尽可能准确地拟合输入特征与目标值之间的关系。

生活中常见的应用场景包括:利用房屋面积来预估房价、根据学习时长推测考试得分、基于广告投入量预测销售业绩等。

基本数学形式

假设我们有一个包含 N 个样本的数据集 D = {(yi, xi1, ..., xiD)},其中:

  • yi 表示因变量(即待预测的目标,如价格或成绩);
  • xi1, ..., xiD 是自变量(也称特征,例如房间数量、学习时间等)。

线性回归假设输出 yi 与输入向量 xi(由 D 个特征组成)之间存在如下线性关系:

yi = β0 + β1xi1 + β2xi2 + ... + βDxiD = xiTβ

其中:

  • β0 为截距项,表示当所有特征取值为零时的基准输出;
  • β1, ..., βD 为各特征对应的回归系数,反映其对结果的影响程度;
  • β = [β0, β1, ..., βD]T 构成完整的参数向量。

实例说明:房价预测

考虑使用房屋面积 (x1) 和房间数 (x2) 来预测总价 (y),模型可写为:

y = β0 + β1·x1 + β2·x2

设定参数如下:

  • β0 = 50:即使无面积和房间,仍存在基础建造成本(单位:万元);
  • β1 = 0.5:每增加 1 平方米,房价上升 0.5 万元;
  • β2 = 10:每多出一间房,房价增加 10 万元。

若某房产面积为 100 平方米且有 3 个房间,则总房价为:

y = 50 + 0.5 × 100 + 10 × 3 = 130 万元

引入基函数处理非线性关系

问题提出:现实世界中许多关系并非严格线性。例如,随着房屋面积增大,单位面积单价可能递减,呈现非线性趋势。

解决策略:采用基函数(basis function)对原始输入进行非线性映射,再在此基础上执行线性回归。

一般模型形式变为:

yi = φ(xi)Tβ

其中 φ(xi) 表示对输入 xi 进行的非线性变换。

常用基函数类型
  • 多项式基函数:

    φj(x) = xj,可用于拟合曲线关系。

    例如:φ(x) = [1, x, x, x]T → 模型变为:y = β0 + β1x + β2x + β3x

    [此处为图片1]
  • 高斯基函数:

    φj(x) = exp{ - (x - μj) / (2s) }

    该函数在中心点 μj 附近响应较强,适合捕捉局部模式。

    [此处为图片2]
  • S形(Sigmoid)基函数:

    φj(x) = σ((x - μj)/s),常用于平滑过渡区域建模。

    [此处为图片3]

2. 最小二乘法

如何确定最优参数?

在线性回归中,目标是找到一组参数 β,使得模型预测值与真实观测值之间的误差平方和最小。

最小二乘法原理

定义损失函数为残差平方和(RSS):

RSS(β) = Σ(yi - xiTβ)

通过求解该函数的最小值点(通常对 β 求导并令导数为零),可以获得最优参数估计:

β = (XTX)-1XTy

此解称为普通最小二乘解(OLS),适用于特征数少于样本数且设计矩阵满秩的情况。

3. 正则化方法

什么是过拟合?

当模型过于复杂(如使用高阶多项式或过多特征)时,可能会完美拟合训练数据,但在新数据上表现很差——这种现象称为“过拟合”。

过拟合导致模型泛化能力下降,无法有效推广到未知样本。

正则化:抑制过拟合的有效手段

为了提升模型稳定性与泛化性能,可在损失函数中加入惩罚项,限制参数大小,这种方法称为正则化

L2 正则化(Ridge 回归)

在最小二乘基础上添加 L2 范数惩罚项:

RSS_Ridge = Σ(yi - xiTβ) + λΣβj

其中 λ ≥ 0 控制正则化强度:

  • λ 较大 → 参数被压缩得更小,模型更简单;
  • λ = 0 → 退化为普通最小二乘。

Ridge 回归能有效降低方差,但不会产生稀疏解(即不会自动剔除特征)。

[此处为图片4]
L1 正则化(Lasso 回归)

使用 L1 范数作为惩罚项:

RSS_Lasso = Σ(yi - xiTβ) + λΣ|βj|

Lasso 的关键优势在于它倾向于将部分系数压缩至恰好为零,从而实现特征选择,生成稀疏模型。

[此处为图片5]
L1 与 L2 的对比
特性 L1 正则化(Lasso) L2 正则化(Ridge)
是否产生稀疏解
能否自动选特征 不能
解的唯一性 可能不唯一 唯一
适用场景 特征多且希望简化模型 多重共线性强的数据
如何选择正则化系数 λ?

λ 的选择直接影响模型复杂度:

  • λ 太小 → 正则化效果弱,易过拟合;
  • λ 太大 → 参数过度收缩,可能导致欠拟合。

常用选择方法为交叉验证(Cross Validation),通过在多个候选 λ 值中测试模型在验证集上的表现,选取性能最佳者。

在回归建模中,特征变换是一种常用手段。例如,基函数 $\phi_j(x)$ 可表示为:

$$ \phi_j(x) = \sigma\left(\frac{x - \mu_j}{s}\right) $$

其中激活函数 $\sigma(a)$ 定义为 S 型函数:

$$ \sigma(a) = \frac{1}{1 + e^{-a}} $$

该函数具有平滑过渡特性,适合用于构建连续可微的非线性映射。

[此处为图片1]

利用多项式进行非线性关系拟合

以房价与房屋面积的关系为例,假设二者之间存在非线性趋势。此时可以引入高阶项来增强模型表达能力。

  • 原始输入特征:$x$(表示面积)
  • 构造的基函数向量:$\phi(x) = [1,\, x,\, x^2]^T$
  • 对应的回归模型形式: $$ y = \beta_0 + \beta_1 x + \beta_2 x^2 $$

尽管该模型对原始变量 $x$ 表现为非线性,但其对变换后的特征 $\phi(x)$ 是线性的,且参数 $\beta$ 的关系仍保持线性结构,因此仍属于“线性回归”范畴。

最小二乘法原理

关键词:误差平方和、偏导数、参数估计、闭式解

线性回归的核心目标是寻找最优参数向量 $\beta$,使得预测输出 $\hat{y}_i$ 尽可能接近真实观测值 $y_i$。

定义第 $i$ 个样本的预测误差为:

$$ e_i = y_i - f(x_i, \beta) = y_i - \hat{y}_i $$

最小二乘法的基本思想是:使所有样本的误差平方和达到最小。

目标函数(即残差平方和)为:

$$ S = \sum_{i=1}^{N} e_i^2 = \sum_{i=1}^{N} (y_i - f(x_i, \beta))^2 $$

使用平方误差的原因包括:

  • 避免正负误差相互抵消;
  • 对较大误差施加更强惩罚(因平方放大效应);
  • 数学处理方便,平方函数处处可导,利于优化求解。

通过对待估参数 $\beta_d$ 求偏导并令其为零:

$$ \frac{\partial S}{\partial \beta_d} = 0, \quad d = 0, 1, \ldots, D $$

可得到关于参数的解析解(又称闭式解),无需迭代过程。

对于线性模型 $f(x_i, \beta) = \phi(x_i)^T \beta$,其参数估计结果为:

$$ \hat{\beta} = (\Phi^T \Phi)^{-1} \Phi^T y $$

其中:

  • $\Phi$ 为设计矩阵(每一行对应一个样本的基函数输出);
  • $y$ 为目标变量组成的列向量。

实例:简单线性回归计算

考虑单变量情形,设模型为:

$$ y = \beta_0 + \beta_1 x $$

给定三组数据点:$(1, 2),\, (2, 3),\, (3, 5)$

应用最小二乘法可求得参数估计值:

$$ \beta_0 = 0.5,\quad \beta_1 = 1.5 $$

因此,拟合出的直线方程为:

$$ y = 0.5 + 1.5x $$

优点总结:

  • 存在解析解,计算高效;
  • 无需迭代,一步求解;
  • 理论上能保证获得全局最优解。

缺点分析:

  • 涉及矩阵求逆 $(\Phi^T \Phi)^{-1}$,当特征维度较高时计算成本大;
  • 对异常值敏感,因平方误差会放大离群点的影响。

正则化方法概述

关键词:过拟合、L1 正则化、L2 正则化、Lasso 回归、Ridge 回归

过拟合(Overfitting) 指的是模型在训练集上表现优异,但在新样本上的泛化能力较差的现象。

类比理解:如同学生仅靠死记硬背完成练习题,面对新题目则无法应对。

导致过拟合的主要因素包括:

  • 训练数据量不足;
  • 模型复杂度过高(如参数过多);
  • 回归系数绝对值过大,引起拟合曲线剧烈震荡。

举例说明(多项式拟合房价数据):

  • 欠拟合:采用一次函数(直线)拟合 → 模型过于简单,无法捕捉趋势;
  • 合适拟合:采用二次函数(抛物线)→ 能较好反映整体变化规律;
  • 过拟合:使用十次多项式 → 曲线过度波动,虽完美匹配训练点,但外推性能差。

正则化:缓解过拟合的有效策略

正则化通过在目标函数中加入惩罚项,控制模型复杂度,从而提升泛化能力。

核心理念:不仅要求预测误差小,还希望模型参数不能过大。

带正则项的目标函数一般形式为:

$$ S' = \sum_{i=1}^{N} (y_i - f(x_i, \beta))^2 + \lambda \cdot \text{惩罚项} $$

其中:

  • 第一部分为数据拟合项(误差平方和);
  • 第二部分为正则惩罚项;
  • $\lambda$ 控制正则强度,平衡拟合精度与模型复杂度。

L2正则化(Ridge回归)通过引入惩罚项来控制模型复杂度,其中正则化系数 λ 起到调节惩罚强度的作用。该方法的优化目标是在最小化预测误差的同时,限制模型参数的大小。

其目标函数形式为:

S' = ∑i=1N (yi f(xi, β)) + λ||β||

其中,||β|| 表示参数向量 β 的L2范数平方,计算方式为:

||β|| = β + β + ... + βD = βTβ

[此处为图片1]

L2正则化的主要特性包括:促使所有参数趋向于更小的值,但通常不会完全变为零;由于采用平方项,对异常值较为敏感;解具有稳定性且唯一;适用于特征数量较多且多数特征均有贡献的情形。

举例说明:

  • 当 λ = 0.1 时,若原始参数为 β = 100,β = 50
  • 经过L2正则化后可能变为 β = 10,β = 5 —— 数值显著缩小,但仍保持非零状态

相比之下,L1正则化(Lasso回归)使用不同的惩罚机制,其惩罚项基于参数的绝对值之和,即L1范数。

对应的目标函数为:

S' = ∑i=1N (yi f(xi, β)) + λ||β||

其中,||β|| 定义为:

||β|| = |β| + |β| + ... + |βD| = ∑jj|

[此处为图片2]

L1正则化的特点在于:能够产生稀疏解,即将部分参数精确压缩至零;具备自动特征选择能力;因使用绝对值,对异常值更具鲁棒性;特别适合高维数据中仅有少数关键特征的情况。

例如,在一个包含100个特征的问题中,若仅10个特征真正有效,L1正则化可自动将其余90个无关特征的系数设为0,实现有效的变量筛选。

以下是L1与L2正则化的对比总结:

特性 L2正则化(Ridge) L1正则化(Lasso)
参数是否可为0 否(接近0但不等于0) 是(可精确为0)
是否支持特征选择 是(自动完成)
对异常值的响应 较敏感 更鲁棒
适用场景 所有特征均重要 仅部分特征重要

关于正则化系数 λ 的选择:

  • λ = 0:无正则化,易导致过拟合
  • λ 很小:轻微约束,参数略有缩减
  • λ 适中:在拟合能力和泛化性能之间取得平衡
  • λ 很大:过度压制参数,可能导致欠拟合

最优 λ 值通常通过交叉验证(Cross-Validation)进行选取,以确保模型在未知数据上的表现最佳。

[此处为图片3]

实际应用中的建议如下:

  • 当面临大量特征并希望自动筛选出关键变量时,推荐使用L1正则化(Lasso)
  • 若所有特征都被认为有用,主要目标是防止过拟合,则应选用L2正则化(Ridge)
  • 此外,也可结合两者优势,采用Elastic Net方法,同时引入L1和L2惩罚项
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:线性回归模型 概率统计 线性回归 模式识别 回归模型

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-5 12:50