发帖

楼主: woshizhaohe

1040 0

[其他] 深度学习预备知识：数据操作、线性代数与微积分基础 [推广有奖]

0关注
0粉丝

等待验证会员

学前班

80%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 0 个
通用积分: 0.0120
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 30 点
帖子: 2
精华: 0
在线时间: 0 小时
注册时间: 2018-5-27
最后登录: 2018-5-27

楼主

woshizhaohe 发表于 2025-12-9 07:04:07 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

深度学习基础入门：数据处理、线性代数与微积分核心概念

掌握深度学习的第一步，是理解其背后的数学原理和数据结构。本文系统梳理了进入深度学习领域所需的关键预备知识，包括张量操作、线性代数基础、降维策略、范数定义以及微积分中的关键工具，为后续模型构建打下坚实基础。

一、N维数组（张量）——数据的核心载体

在神经网络与机器学习中，所有数据均以张量形式进行表示与处理。不同维度的张量对应不同的实际应用：

维度	名称	典型应用场景
0维	标量	类别标签（如“猫”或“狗”）
1维	向量	单个样本的特征集合（如身高、体重等）
2维	矩阵	多个样本的特征数据表（行=样本，列=特征）
3维	3D张量	彩色图像（宽度 × 高度 × RGB通道）
4维	4D张量	图像批量输入（批量大小 × 宽 × 高 × 通道）
5维	5D张量	视频序列（时间帧 × 批量 × 宽 × 高 × 通道）

张量元素的索引访问（以4×4矩阵为例）

对于一个4×4的二维张量，可通过多种方式灵活获取子集：

单个元素：
```
[1,2]
```
→ 可提取具体值
```
7
```
（注：索引起始依编程框架而定，常见从0或1开始）
整行访问：
```
[1,:]
```
→ 获取第1行全部元素，例如得到
```
(5,6,7,8)
```
整列访问：
```
[:,1]
```
→ 提取第1列的所有行，结果如
```
(2,6,10,14)
```
子区域切片：
```
[1:3,1:]
```
（左闭右开区间）→ 截取第1-2行、第1列之后的部分，输出为
```
(6,7,8,10,11,12)
```
带步长采样：
```
[:,1:3,:2]
```
→ 按每3行取一次、每2列取一次的方式抽样，获得
```
(1,3,13,15)
```

二、线性代数基础：构建模型的数学支柱

线性代数构成了深度学习算法运行的底层逻辑，主要涉及标量、向量和矩阵的基本运算。

1. 标量（0维张量）

标量即单一数值，是最简单的数学对象，基本操作如下：

基础算术：
C = a + b
c = a · b
c = sin a
绝对值（长度）：
|a| = { a, 若 a > 0; -a, 其他情况 }
不等式性质：
|a + b| ≤ |a| + |b|
|a · b| = |a| · |b|

2. 向量（1维张量）

向量是由有序数值组成的集合，支持多种逐元素操作：

加法：c = a + b，其中 c_i = a_i + b_i
乘法：c = a · b，其中 c_i = a_ib_i
函数映射：c = sin a，其中 c_i = sin(a_i)
L2范数（长度）：
||a|| = [∑_iⁿ a_i]
基本性质：
||a|| ≥ 0
||a + b|| ≤ ||a|| + ||b||
||a · b|| ≤ |a| · ||b||
点乘（内积）：
ab = ∑_iⁿ a_ib_i
正交性判断：
若 ab = 0，则两个向量正交

3. 矩阵（2维张量）

矩阵是二维数组，广泛用于存储和变换数据，常见操作包括：

逐元素加法：C = A + B，其中 C_ij = A_ij + B_ij

三、高维数据简化：降维方法概述

面对高维数据带来的“维度灾难”，常用以下三种方式进行有效压缩：

聚合降维（Aggregation）：通过统计汇总（如均值、总和）减少数据量。
投影降维（Projection）：将数据映射到低维空间，典型方法如主成分分析（PCA）。
特征选择降维（Feature Selection）：保留最具代表性的原始特征，剔除冗余项。

四、衡量向量“大小”：范数的应用

范数用于量化向量或矩阵的规模，在优化与正则化中起重要作用。

1. 常见L-p范数类型

L1范数（曼哈顿距离）：各元素绝对值之和，强调稀疏性。
L2范数（欧氏距离）：平方和开根号，衡量整体大小。
L∞范数（无穷范数）：取绝对值最大元素，反映极端值。

2. 矩阵的范数

可扩展至矩阵形式，如Frobenius范数等，用于权重矩阵的约束。

3. 范数的核心用途总结

主要用于损失函数设计、正则化项添加（如L1/L2正则）、梯度裁剪等方面，提升模型稳定性与泛化能力。

五、微积分：驱动模型优化的引擎

微积分提供了参数更新与误差反向传播的理论依据，是训练神经网络不可或缺的工具。

1. 函数表达

模型本质是一系列复合函数的组合，输入经多层变换输出预测结果。

2. 导数与偏导数

描述函数在某一点的变化率；对于多元函数，偏导数衡量某一变量单独变化的影响。

3. 梯度（Gradient）

由所有偏导数组成的向量，指示函数增长最快的方向，指导参数调整方向。

4. 链式法则

用于计算复合函数的导数，是反向传播算法的数学基础，实现误差从输出层逐层回传。

在深度学习中，数据的处理离不开基本的数学运算与结构化操作。以下是对向量、矩阵等数据对象的核心运算方式及其特性的整理。

一、基本运算操作

逐元素运算（Element-wise Operations）：当两个同维度的张量进行加法或函数映射时，操作是在对应位置上独立进行的。

加法：对于相同形状的矩阵 $ A $ 和 $ B $，其和为 $ C = A + B $，其中每个元素满足 $ C_{ij} = A_{ij} + B_{ij} $。
数乘：标量 $ \alpha $ 与矩阵 $ B $ 相乘得到 $ C = \alpha \cdot B $，即 $ C_{ij} = \alpha B_{ij} $。
函数映射：如 $ C = \sin A $，表示对矩阵 $ A $ 的每一个元素应用正弦函数，即 $ C_{ij} = \sin A_{ij} $。

矩阵乘法（Matrix Multiplication）：不同于逐元素运算，矩阵乘法涉及内积计算，具有更复杂的结构意义。

矩阵×向量：若 $ c = Ab $，则结果向量的第 $ i $ 个元素为 $ c_i = \sum_{j}^{n} A_{ij} b_j $，相当于矩阵每行与向量做点积。
矩阵×矩阵：设 $ C = AB $，则 $ C_{ik} = \sum_{j}^{n} A_{ij} B_{jk} $，即第一个矩阵的行与第二个矩阵的列逐一对接求和。

[1,2]

二、高维数据的降维策略

面对高维特征空间带来的“维度灾难”，降维是提升模型效率与可解释性的关键手段。常见的方法可分为三类：

聚合降维（Aggregation）：利用统计量将多个维度压缩为少数指标，例如对图像像素取均值、最大值或总和，从而生成一个低维甚至标量表示。这种方式简单高效，适用于初步特征提取。
投影降维（Projection）：通过线性或非线性变换将原始数据映射到低维流形。
- 线性投影：典型代表为主成分分析（PCA），能够将高维数据（如100维）压缩至少数主方向（如3维），保留最大方差信息。
- 非线性投影：如 t-SNE，擅长保持局部邻近关系，常用于可视化高维数据集（如将MNIST手写数字嵌入二维平面展示聚类结构）。
特征选择降维（Feature Selection）：不通过变换，而是直接剔除冗余或无关特征。
- 移除方差极小的特征列（几乎不变的特征不具备区分能力）；
- 采用卡方检验等统计方法筛选出与目标变量相关性强的关键特征。

三、范数：量化向量与矩阵的“大小”

范数是一种将向量或矩阵映射为非负实数的函数，广泛应用于正则化、距离度量及优化过程中。要称为有效的范数，函数 $ f(\boldsymbol{x}) $ 必须满足以下三条公理：

缩放性：对任意标量 $ \alpha $，有 $ f(\alpha \boldsymbol{x}) = |\alpha| \cdot f(\boldsymbol{x}) $。这保证了向量缩放后，其“长度”的变化比例一致。
三角不等式：$ f(\boldsymbol{x}+\boldsymbol{y}) \leq f(\boldsymbol{x}) + f(\boldsymbol{y}) $，反映向量合成后的模长不会超过各自模长之和，符合几何直觉。
非负性：$ f(\boldsymbol{x}) \geq 0 $，且仅当 $ \boldsymbol{x} = \boldsymbol{0} $ 时取等号，确保只有零向量的“大小”为零。

常见 L-p 范数类型

对于 $ n $ 维向量 $ \boldsymbol{X} = (x_1, x_2, \dots, x_n) $，L-p 范数定义如下：

$$ ||\boldsymbol{X}||_p = \left( \sum_{i=1}^{n} |x_i|^p \right)^{\frac{1}{p}}, \quad p \geq 1 $$

不同 $ p $ 值对应不同的范数形式，各有侧重：

L1 范数（曼哈顿范数）：当 $ p=1 $ 时， $$ ||\boldsymbol{X}||_1 = \sum_{i=1}^{n} |x_i| $$
几何含义：在二维空间中，L1 距离是从一点沿坐标轴走到另一点所需的步数总和，类似城市街区路径，因此又称“曼哈顿距离”。

特性：对异常值不敏感，并具备稀疏性诱导能力——在优化中促使部分权重趋近于零。

应用场景：
- L1 正则化：在损失函数中加入 $ ||w||_1 $ 项，促使模型自动进行特征选择，简化网络结构；
- 鲁棒建模：处理含噪声或离群点的数据时，使用 L1 损失可减少极端值对训练的影响。

[1,:]

L2 范数（欧氏距离）

当参数 p 取值为 2 时，对应的范数称为 L2 范数，其数学表达式如下：

$$||\boldsymbol{X}||_2 = \sqrt{\sum_{i=1}^{n} x_i^2}$$

几何意义：在二维或三维空间中，L2 范数表示两点之间的直线距离，是衡量向量长度最直观的方式。

核心特性：由于涉及平方运算，L2 范数对向量中的异常值较为敏感，会放大这些极端值的影响。在优化过程中，它倾向于使权重整体趋于较小的数值，而非直接归零。

在深度学习中的典型应用包括：

L2 正则化（又称权重衰减）：通过在损失函数中引入权重的 L2 范数项，控制模型复杂度，缓解过拟合问题，提升泛化能力。
相似性度量：在 KNN、K-Means 等算法中，使用 L2 范数计算样本间的欧氏距离以判断相近程度。
梯度优化辅助：利用损失函数关于参数的 L2 范数来评估梯度规模，进而调整学习率策略。

L∞ 范数（无穷范数）

当 p 趋近于无穷大时，Lp 范数收敛至 L∞ 范数，定义如下：

$$||\boldsymbol{X}||_\infty = \max(|x_1|, |x_2|, \dots, |x_n|)$$

几何解释：该范数仅关注向量中绝对值最大的元素，在二维空间中表现为以原点为中心的正方形边界上的最大距离。

主要特点：强调“峰值”信息，忽略其余分量，适用于快速评估向量的最大幅值。

在深度学习中的应用场景有：

对抗攻击分析：用于限制输入扰动的最大单点变化幅度，测试模型面对微小但集中干扰时的稳定性。
梯度裁剪技术：通过对梯度向量施加 L∞ 范数约束，防止训练过程中出现梯度爆炸现象。

矩阵的范数

范数的概念不仅适用于向量，也可推广至矩阵领域。其中，最常用的是F-范数（弗罗贝尼乌斯范数）。对于一个 m×n 的矩阵 A，其定义为：

$$||\boldsymbol{A}||_F = \sqrt{\sum_{i=1}^{m} \sum_{j=1}^{n} A_{ij}^2}$$

核心特性：F-范数等价于将整个矩阵展平为一个长向量后计算其 L2 范数，满足非负性、齐次性和三角不等式三大基本性质。

在深度学习中的用途主要包括：

矩阵逼近任务：在主成分分析（PCA）、奇异值分解（SVD）等降维方法中，用 F-范数衡量原始矩阵与低秩近似之间的差异。
模型正则化手段：对神经网络中的权重矩阵施加 F-范数惩罚项，抑制参数过度增长，降低过拟合风险。

范数的核心应用汇总

范数类型	核心特性	典型应用场景
L1 范数	促进稀疏解，对异常值具有较强鲁棒性	特征选择、L1 正则化
L2 范数	衡量向量的欧氏长度，促使权重平滑分布	权重衰减、样本间距离计算
L∞ 范数	聚焦最大绝对值分量	梯度裁剪、对抗样本扰动分析
F-范数	反映矩阵整体规模大小	低秩近似、矩阵正则化

微积分：深度学习中的关键优化工具

微积分提供了研究函数变化规律的数学基础，尤其在梯度下降类优化算法中起着核心作用。

函数的基本概念

函数描述了从输入到输出的映射关系。例如，在深度学习中最常见的线性函数形式为：

$$y = wx + b$$

其中，w 表示权重参数，b 为偏置项。

导数与偏导数

导数：刻画单变量函数在某一点处的变化率，即曲线的切线斜率。

偏导数：针对多元函数（如 $z = x^2 + y^2$），在求某个变量的偏导时，其余变量被视为常量。

举例说明：

$$\frac{\partial z}{\partial x} = 2x,\quad \frac{\partial z}{\partial y} = 2y$$

梯度（Gradient）

梯度是由多元函数所有偏导数组成的向量，指示函数增长最快的方向。

设输入向量 $\boldsymbol{X} = [x_1, x_2, \cdots, x_n]^T$，输出为标量，则函数 $f(x)$ 关于 $\boldsymbol{X}$ 的梯度定义为：

$$\nabla_X f(x) = \left[\frac{\partial f(x)}{\partial x_1}, \frac{\partial f(x)}{\partial x_2}, \cdots, \frac{\partial f(x)}{\partial x_n}\right]^T$$

链式法则

链式法则是计算复合函数导数的重要工具，也是深度学习中反向传播算法的理论基石。

若存在 $y = f(u)$ 且 $u = g(x)$，两者均可导，则有：

$$\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}$$

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：深度学习线性代数微积分 Aggregation Projection

[其他] 深度学习预备知识：数据操作、线性代数与微积分基础 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

深度学习基础入门：数据处理、线性代数与微积分核心概念

一、N维数组（张量）——数据的核心载体

张量元素的索引访问（以4×4矩阵为例）

二、线性代数基础：构建模型的数学支柱

1. 标量（0维张量）

2. 向量（1维张量）

3. 矩阵（2维张量）

三、高维数据简化：降维方法概述

四、衡量向量“大小”：范数的应用

1. 常见L-p范数类型

2. 矩阵的范数

3. 范数的核心用途总结

五、微积分：驱动模型优化的引擎

1. 函数表达

2. 导数与偏导数

3. 梯度（Gradient）

4. 链式法则

一、基本运算操作

二、高维数据的降维策略

三、范数：量化向量与矩阵的“大小”

常见 L-p 范数类型

L2 范数（欧氏距离）

L∞ 范数（无穷范数）

矩阵的范数

范数的核心应用汇总

微积分：深度学习中的关键优化工具

函数的基本概念

导数与偏导数

梯度（Gradient）

链式法则

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[其他] 深度学习预备知识：数据操作、线性代数与微积分基础 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

深度学习基础入门：数据处理、线性代数与微积分核心概念

一、N维数组（张量）——数据的核心载体

张量元素的索引访问（以4×4矩阵为例）

二、线性代数基础：构建模型的数学支柱

1. 标量（0维张量）

2. 向量（1维张量）

3. 矩阵（2维张量）

三、高维数据简化：降维方法概述

四、衡量向量“大小”：范数的应用

1. 常见L-p范数类型

2. 矩阵的范数

3. 范数的核心用途总结

五、微积分：驱动模型优化的引擎

1. 函数表达

2. 导数与偏导数

3. 梯度（Gradient）

4. 链式法则

一、基本运算操作

二、高维数据的降维策略

三、范数：量化向量与矩阵的“大小”

常见 L-p 范数类型

L2 范数（欧氏距离）

L∞ 范数（无穷范数）

矩阵的范数

范数的核心应用汇总

微积分：深度学习中的关键优化工具

函数的基本概念

导数与偏导数

梯度（Gradient）

链式法则

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群