发帖

楼主: wdxd

632 0

[其他] 【模式识别与机器学习（4）】主要算法与技术（中篇：概率统计与回归方法）之线性回归模型 [推广有奖]

0关注
0粉丝

准贵宾（月）

学前班

80%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 997 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 30 点
帖子: 2
精华: 0
在线时间: 0 小时
注册时间: 2018-9-14
最后登录: 2018-9-14

楼主

wdxd 发表于 2025-12-2 17:26:43 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

一、知识框架概览

本部分内容涵盖以下核心知识点：

线性回归模型的基本原理与应用
最小二乘法在参数估计中的作用
正则化技术及其变体（Ridge 和 Lasso 回归）

二、正文详解

1. 线性回归模型

关键词：线性关系、回归系数、基函数、非线性变换

线性回归的定义

线性回归是一种用于预测连续型输出变量的统计方法。其核心思想是通过构建一个线性方程，使该方程能够尽可能准确地拟合输入特征与目标值之间的关系。

生活中常见的应用场景包括：利用房屋面积来预估房价、根据学习时长推测考试得分、基于广告投入量预测销售业绩等。

基本数学形式

假设我们有一个包含 N 个样本的数据集 D = {(y_i, x_i1, ..., x_iD)}，其中：

y_i 表示因变量（即待预测的目标，如价格或成绩）；
x_i1, ..., x_iD 是自变量（也称特征，例如房间数量、学习时间等）。

线性回归假设输出 y_i 与输入向量 x_i（由 D 个特征组成）之间存在如下线性关系：

y_i = β₀ + β₁x_i1 + β₂x_i2 + ... + β_Dx_iD = x_i^Tβ

其中：

β₀ 为截距项，表示当所有特征取值为零时的基准输出；
β₁, ..., β_D 为各特征对应的回归系数，反映其对结果的影响程度；
β = [β₀, β₁, ..., β_D]^T 构成完整的参数向量。

实例说明：房价预测

考虑使用房屋面积 (x₁) 和房间数 (x₂) 来预测总价 (y)，模型可写为：

y = β₀ + β₁·x₁ + β₂·x₂

设定参数如下：

β₀ = 50：即使无面积和房间，仍存在基础建造成本（单位：万元）；
β₁ = 0.5：每增加 1 平方米，房价上升 0.5 万元；
β₂ = 10：每多出一间房，房价增加 10 万元。

若某房产面积为 100 平方米且有 3 个房间，则总房价为：

y = 50 + 0.5 × 100 + 10 × 3 = 130 万元

引入基函数处理非线性关系

问题提出：现实世界中许多关系并非严格线性。例如，随着房屋面积增大，单位面积单价可能递减，呈现非线性趋势。

解决策略：采用基函数（basis function）对原始输入进行非线性映射，再在此基础上执行线性回归。

一般模型形式变为：

y_i = φ(x_i)^Tβ

其中 φ(x_i) 表示对输入 x_i 进行的非线性变换。

常用基函数类型

多项式基函数：
φ_j(x) = x^j，可用于拟合曲线关系。

例如：φ(x) = [1, x, x, x]^T → 模型变为：y = β₀ + β₁x + β₂x + β₃x
[此处为图片1]
高斯基函数：
φ_j(x) = exp{ - (x - μ_j) / (2s) }

该函数在中心点 μ_j 附近响应较强，适合捕捉局部模式。
[此处为图片2]
S形（Sigmoid）基函数：
φ_j(x) = σ((x - μ_j)/s)，常用于平滑过渡区域建模。
[此处为图片3]

2. 最小二乘法

如何确定最优参数？

在线性回归中，目标是找到一组参数 β，使得模型预测值与真实观测值之间的误差平方和最小。

最小二乘法原理

定义损失函数为残差平方和（RSS）：

RSS(β) = Σ(y_i - x_i^Tβ)

通过求解该函数的最小值点（通常对 β 求导并令导数为零），可以获得最优参数估计：

β = (X^TX)^-1X^Ty

此解称为普通最小二乘解（OLS），适用于特征数少于样本数且设计矩阵满秩的情况。

3. 正则化方法

什么是过拟合？

当模型过于复杂（如使用高阶多项式或过多特征）时，可能会完美拟合训练数据，但在新数据上表现很差——这种现象称为“过拟合”。

过拟合导致模型泛化能力下降，无法有效推广到未知样本。

正则化：抑制过拟合的有效手段

为了提升模型稳定性与泛化性能，可在损失函数中加入惩罚项，限制参数大小，这种方法称为正则化。

L2 正则化（Ridge 回归）

在最小二乘基础上添加 L2 范数惩罚项：

RSS_Ridge = Σ(y_i - x_i^Tβ) + λΣβ_j

其中 λ ≥ 0 控制正则化强度：

λ 较大 → 参数被压缩得更小，模型更简单；
λ = 0 → 退化为普通最小二乘。

Ridge 回归能有效降低方差，但不会产生稀疏解（即不会自动剔除特征）。

[此处为图片4]

L1 正则化（Lasso 回归）

使用 L1 范数作为惩罚项：

RSS_Lasso = Σ(y_i - x_i^Tβ) + λΣ|β_j|

Lasso 的关键优势在于它倾向于将部分系数压缩至恰好为零，从而实现特征选择，生成稀疏模型。

[此处为图片5]

L1 与 L2 的对比

特性	L1 正则化（Lasso）	L2 正则化（Ridge）
是否产生稀疏解	是	否
能否自动选特征	能	不能
解的唯一性	可能不唯一	唯一
适用场景	特征多且希望简化模型	多重共线性强的数据

如何选择正则化系数 λ？

λ 的选择直接影响模型复杂度：

λ 太小 → 正则化效果弱，易过拟合；
λ 太大 → 参数过度收缩，可能导致欠拟合。

常用选择方法为交叉验证（Cross Validation），通过在多个候选 λ 值中测试模型在验证集上的表现，选取性能最佳者。

在回归建模中，特征变换是一种常用手段。例如，基函数 $\phi_j(x)$ 可表示为：

$$ \phi_j(x) = \sigma\left(\frac{x - \mu_j}{s}\right) $$

其中激活函数 $\sigma(a)$ 定义为 S 型函数：

$$ \sigma(a) = \frac{1}{1 + e^{-a}} $$

该函数具有平滑过渡特性，适合用于构建连续可微的非线性映射。

[此处为图片1]

利用多项式进行非线性关系拟合

以房价与房屋面积的关系为例，假设二者之间存在非线性趋势。此时可以引入高阶项来增强模型表达能力。

原始输入特征：$x$（表示面积）
构造的基函数向量：$\phi(x) = [1,\, x,\, x^2]^T$
对应的回归模型形式： $$ y = \beta_0 + \beta_1 x + \beta_2 x^2 $$

尽管该模型对原始变量 $x$ 表现为非线性，但其对变换后的特征 $\phi(x)$ 是线性的，且参数 $\beta$ 的关系仍保持线性结构，因此仍属于“线性回归”范畴。

最小二乘法原理

关键词：误差平方和、偏导数、参数估计、闭式解

线性回归的核心目标是寻找最优参数向量 $\beta$，使得预测输出 $\hat{y}_i$ 尽可能接近真实观测值 $y_i$。

定义第 $i$ 个样本的预测误差为：

$$ e_i = y_i - f(x_i, \beta) = y_i - \hat{y}_i $$

最小二乘法的基本思想是：使所有样本的误差平方和达到最小。

目标函数（即残差平方和）为：

$$ S = \sum_{i=1}^{N} e_i^2 = \sum_{i=1}^{N} (y_i - f(x_i, \beta))^2 $$

使用平方误差的原因包括：

避免正负误差相互抵消；
对较大误差施加更强惩罚（因平方放大效应）；
数学处理方便，平方函数处处可导，利于优化求解。

通过对待估参数 $\beta_d$ 求偏导并令其为零：

$$ \frac{\partial S}{\partial \beta_d} = 0, \quad d = 0, 1, \ldots, D $$

可得到关于参数的解析解（又称闭式解），无需迭代过程。

对于线性模型 $f(x_i, \beta) = \phi(x_i)^T \beta$，其参数估计结果为：

$$ \hat{\beta} = (\Phi^T \Phi)^{-1} \Phi^T y $$

其中：

$\Phi$ 为设计矩阵（每一行对应一个样本的基函数输出）；
$y$ 为目标变量组成的列向量。

实例：简单线性回归计算

考虑单变量情形，设模型为：

$$ y = \beta_0 + \beta_1 x $$

给定三组数据点：$(1, 2),\, (2, 3),\, (3, 5)$

应用最小二乘法可求得参数估计值：

$$ \beta_0 = 0.5,\quad \beta_1 = 1.5 $$

因此，拟合出的直线方程为：

$$ y = 0.5 + 1.5x $$

优点总结：

存在解析解，计算高效；
无需迭代，一步求解；
理论上能保证获得全局最优解。

缺点分析：

涉及矩阵求逆 $(\Phi^T \Phi)^{-1}$，当特征维度较高时计算成本大；
对异常值敏感，因平方误差会放大离群点的影响。

正则化方法概述

关键词：过拟合、L1 正则化、L2 正则化、Lasso 回归、Ridge 回归

过拟合（Overfitting） 指的是模型在训练集上表现优异，但在新样本上的泛化能力较差的现象。

类比理解：如同学生仅靠死记硬背完成练习题，面对新题目则无法应对。

导致过拟合的主要因素包括：

训练数据量不足；
模型复杂度过高（如参数过多）；
回归系数绝对值过大，引起拟合曲线剧烈震荡。

举例说明（多项式拟合房价数据）：

欠拟合：采用一次函数（直线）拟合 → 模型过于简单，无法捕捉趋势；
合适拟合：采用二次函数（抛物线）→ 能较好反映整体变化规律；
过拟合：使用十次多项式 → 曲线过度波动，虽完美匹配训练点，但外推性能差。

正则化：缓解过拟合的有效策略

正则化通过在目标函数中加入惩罚项，控制模型复杂度，从而提升泛化能力。

核心理念：不仅要求预测误差小，还希望模型参数不能过大。

带正则项的目标函数一般形式为：

$$ S' = \sum_{i=1}^{N} (y_i - f(x_i, \beta))^2 + \lambda \cdot \text{惩罚项} $$

其中：

第一部分为数据拟合项（误差平方和）；
第二部分为正则惩罚项；
$\lambda$ 控制正则强度，平衡拟合精度与模型复杂度。

L2正则化（Ridge回归）通过引入惩罚项来控制模型复杂度，其中正则化系数 λ 起到调节惩罚强度的作用。该方法的优化目标是在最小化预测误差的同时，限制模型参数的大小。

其目标函数形式为：

S' = ∑_i=1^N (y_i f(x_i, β)) + λ||β||

其中，||β|| 表示参数向量 β 的L2范数平方，计算方式为：

||β|| = β + β + ... + β_D = β^Tβ

[此处为图片1]

L2正则化的主要特性包括：促使所有参数趋向于更小的值，但通常不会完全变为零；由于采用平方项，对异常值较为敏感；解具有稳定性且唯一；适用于特征数量较多且多数特征均有贡献的情形。

举例说明：

当 λ = 0.1 时，若原始参数为 β = 100，β = 50
经过L2正则化后可能变为 β = 10，β = 5 —— 数值显著缩小，但仍保持非零状态

相比之下，L1正则化（Lasso回归）使用不同的惩罚机制，其惩罚项基于参数的绝对值之和，即L1范数。

对应的目标函数为：

S' = ∑_i=1^N (y_i f(x_i, β)) + λ||β||

其中，||β|| 定义为：

||β|| = |β| + |β| + ... + |β_D| = ∑_j |β_j|

[此处为图片2]

L1正则化的特点在于：能够产生稀疏解，即将部分参数精确压缩至零；具备自动特征选择能力；因使用绝对值，对异常值更具鲁棒性；特别适合高维数据中仅有少数关键特征的情况。

例如，在一个包含100个特征的问题中，若仅10个特征真正有效，L1正则化可自动将其余90个无关特征的系数设为0，实现有效的变量筛选。

以下是L1与L2正则化的对比总结：

特性	L2正则化（Ridge）	L1正则化（Lasso）
参数是否可为0	否（接近0但不等于0）	是（可精确为0）
是否支持特征选择	否	是（自动完成）
对异常值的响应	较敏感	更鲁棒
适用场景	所有特征均重要	仅部分特征重要

关于正则化系数 λ 的选择：

λ = 0：无正则化，易导致过拟合
λ 很小：轻微约束，参数略有缩减
λ 适中：在拟合能力和泛化性能之间取得平衡
λ 很大：过度压制参数，可能导致欠拟合

最优 λ 值通常通过交叉验证（Cross-Validation）进行选取，以确保模型在未知数据上的表现最佳。

[此处为图片3]

实际应用中的建议如下：

当面临大量特征并希望自动筛选出关键变量时，推荐使用L1正则化（Lasso）
若所有特征都被认为有用，主要目标是防止过拟合，则应选用L2正则化（Ridge）
此外，也可结合两者优势，采用Elastic Net方法，同时引入L1和L2惩罚项

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：线性回归模型概率统计线性回归模式识别回归模型

[其他] 【模式识别与机器学习（4）】主要算法与技术（中篇：概率统计与回归方法）之线性回归模型 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

一、知识框架概览

二、正文详解

1. 线性回归模型

线性回归的定义

基本数学形式

实例说明：房价预测

引入基函数处理非线性关系

常用基函数类型

2. 最小二乘法

如何确定最优参数？

最小二乘法原理

3. 正则化方法

什么是过拟合？

正则化：抑制过拟合的有效手段

L2 正则化（Ridge 回归）

L1 正则化（Lasso 回归）

L1 与 L2 的对比

如何选择正则化系数 λ？

利用多项式进行非线性关系拟合

最小二乘法原理

实例：简单线性回归计算

正则化方法概述

正则化：缓解过拟合的有效策略

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[其他] 【模式识别与机器学习（4）】主要算法与技术（中篇：概率统计与回归方法）之线性回归模型 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

一、知识框架概览

二、正文详解

1. 线性回归模型

线性回归的定义

基本数学形式

实例说明：房价预测

引入基函数处理非线性关系

常用基函数类型

2. 最小二乘法

如何确定最优参数？

最小二乘法原理

3. 正则化方法

什么是过拟合？

正则化：抑制过拟合的有效手段

L2 正则化（Ridge 回归）

L1 正则化（Lasso 回归）

L1 与 L2 的对比

如何选择正则化系数 λ？

利用多项式进行非线性关系拟合

最小二乘法原理

实例：简单线性回归计算

正则化方法概述

正则化：缓解过拟合的有效策略

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群