深度学习基础入门:数据处理、线性代数与微积分核心概念
掌握深度学习的第一步,是理解其背后的数学原理和数据结构。本文系统梳理了进入深度学习领域所需的关键预备知识,包括张量操作、线性代数基础、降维策略、范数定义以及微积分中的关键工具,为后续模型构建打下坚实基础。
一、N维数组(张量)——数据的核心载体
在神经网络与机器学习中,所有数据均以张量形式进行表示与处理。不同维度的张量对应不同的实际应用:
| 维度 | 名称 | 典型应用场景 |
|---|---|---|
| 0维 | 标量 | 类别标签(如“猫”或“狗”) |
| 1维 | 向量 | 单个样本的特征集合(如身高、体重等) |
| 2维 | 矩阵 | 多个样本的特征数据表(行=样本,列=特征) |
| 3维 | 3D张量 | 彩色图像(宽度 × 高度 × RGB通道) |
| 4维 | 4D张量 | 图像批量输入(批量大小 × 宽 × 高 × 通道) |
| 5维 | 5D张量 | 视频序列(时间帧 × 批量 × 宽 × 高 × 通道) |
张量元素的索引访问(以4×4矩阵为例)
对于一个4×4的二维张量,可通过多种方式灵活获取子集:
- 单个元素:
→ 可提取具体值[1,2]7
(注:索引起始依编程框架而定,常见从0或1开始) - 整行访问:
→ 获取第1行全部元素,例如得到[1,:](5,6,7,8) - 整列访问:
→ 提取第1列的所有行,结果如[:,1](2,6,10,14) - 子区域切片:
(左闭右开区间)→ 截取第1-2行、第1列之后的部分,输出为[1:3,1:](6,7,8,10,11,12) - 带步长采样:
→ 按每3行取一次、每2列取一次的方式抽样,获得[:,1:3,:2](1,3,13,15)
二、线性代数基础:构建模型的数学支柱
线性代数构成了深度学习算法运行的底层逻辑,主要涉及标量、向量和矩阵的基本运算。
1. 标量(0维张量)
标量即单一数值,是最简单的数学对象,基本操作如下:
- 基础算术:
C = a + b
c = a · b
c = sin a - 绝对值(长度):
|a| = { a, 若 a > 0; -a, 其他情况 } - 不等式性质:
|a + b| ≤ |a| + |b|
|a · b| = |a| · |b|
2. 向量(1维张量)
向量是由有序数值组成的集合,支持多种逐元素操作:
- 加法:c = a + b,其中 ci = ai + bi
- 乘法:c = a · b,其中 ci = aibi
- 函数映射:c = sin a,其中 ci = sin(ai)
- L2范数(长度):
||a|| = [∑in ai] - 基本性质:
||a|| ≥ 0
||a + b|| ≤ ||a|| + ||b||
||a · b|| ≤ |a| · ||b|| - 点乘(内积):
ab = ∑in aibi - 正交性判断:
若 ab = 0,则两个向量正交
3. 矩阵(2维张量)
矩阵是二维数组,广泛用于存储和变换数据,常见操作包括:
- 逐元素加法:C = A + B,其中 Cij = Aij + Bij
三、高维数据简化:降维方法概述
面对高维数据带来的“维度灾难”,常用以下三种方式进行有效压缩:
- 聚合降维(Aggregation):通过统计汇总(如均值、总和)减少数据量。
- 投影降维(Projection):将数据映射到低维空间,典型方法如主成分分析(PCA)。
- 特征选择降维(Feature Selection):保留最具代表性的原始特征,剔除冗余项。
四、衡量向量“大小”:范数的应用
范数用于量化向量或矩阵的规模,在优化与正则化中起重要作用。
1. 常见L-p范数类型
- L1范数(曼哈顿距离):各元素绝对值之和,强调稀疏性。
- L2范数(欧氏距离):平方和开根号,衡量整体大小。
- L∞范数(无穷范数):取绝对值最大元素,反映极端值。
2. 矩阵的范数
可扩展至矩阵形式,如Frobenius范数等,用于权重矩阵的约束。
3. 范数的核心用途总结
主要用于损失函数设计、正则化项添加(如L1/L2正则)、梯度裁剪等方面,提升模型稳定性与泛化能力。
五、微积分:驱动模型优化的引擎
微积分提供了参数更新与误差反向传播的理论依据,是训练神经网络不可或缺的工具。
1. 函数表达
模型本质是一系列复合函数的组合,输入经多层变换输出预测结果。
2. 导数与偏导数
描述函数在某一点的变化率;对于多元函数,偏导数衡量某一变量单独变化的影响。
3. 梯度(Gradient)
由所有偏导数组成的向量,指示函数增长最快的方向,指导参数调整方向。
4. 链式法则
用于计算复合函数的导数,是反向传播算法的数学基础,实现误差从输出层逐层回传。
在深度学习中,数据的处理离不开基本的数学运算与结构化操作。以下是对向量、矩阵等数据对象的核心运算方式及其特性的整理。
一、基本运算操作
逐元素运算(Element-wise Operations):当两个同维度的张量进行加法或函数映射时,操作是在对应位置上独立进行的。
- 加法:对于相同形状的矩阵 $ A $ 和 $ B $,其和为 $ C = A + B $,其中每个元素满足 $ C_{ij} = A_{ij} + B_{ij} $。
- 数乘:标量 $ \alpha $ 与矩阵 $ B $ 相乘得到 $ C = \alpha \cdot B $,即 $ C_{ij} = \alpha B_{ij} $。
- 函数映射:如 $ C = \sin A $,表示对矩阵 $ A $ 的每一个元素应用正弦函数,即 $ C_{ij} = \sin A_{ij} $。
矩阵乘法(Matrix Multiplication):不同于逐元素运算,矩阵乘法涉及内积计算,具有更复杂的结构意义。
- 矩阵×向量:若 $ c = Ab $,则结果向量的第 $ i $ 个元素为 $ c_i = \sum_{j}^{n} A_{ij} b_j $,相当于矩阵每行与向量做点积。
- 矩阵×矩阵:设 $ C = AB $,则 $ C_{ik} = \sum_{j}^{n} A_{ij} B_{jk} $,即第一个矩阵的行与第二个矩阵的列逐一对接求和。
[1,2]
二、高维数据的降维策略
面对高维特征空间带来的“维度灾难”,降维是提升模型效率与可解释性的关键手段。常见的方法可分为三类:
- 聚合降维(Aggregation):利用统计量将多个维度压缩为少数指标,例如对图像像素取均值、最大值或总和,从而生成一个低维甚至标量表示。这种方式简单高效,适用于初步特征提取。
- 投影降维(Projection):通过线性或非线性变换将原始数据映射到低维流形。
- 线性投影:典型代表为主成分分析(PCA),能够将高维数据(如100维)压缩至少数主方向(如3维),保留最大方差信息。
- 非线性投影:如 t-SNE,擅长保持局部邻近关系,常用于可视化高维数据集(如将MNIST手写数字嵌入二维平面展示聚类结构)。
- 特征选择降维(Feature Selection):不通过变换,而是直接剔除冗余或无关特征。
- 移除方差极小的特征列(几乎不变的特征不具备区分能力);
- 采用卡方检验等统计方法筛选出与目标变量相关性强的关键特征。
7
三、范数:量化向量与矩阵的“大小”
范数是一种将向量或矩阵映射为非负实数的函数,广泛应用于正则化、距离度量及优化过程中。要称为有效的范数,函数 $ f(\boldsymbol{x}) $ 必须满足以下三条公理:
- 缩放性:对任意标量 $ \alpha $,有 $ f(\alpha \boldsymbol{x}) = |\alpha| \cdot f(\boldsymbol{x}) $。这保证了向量缩放后,其“长度”的变化比例一致。
- 三角不等式:$ f(\boldsymbol{x}+\boldsymbol{y}) \leq f(\boldsymbol{x}) + f(\boldsymbol{y}) $,反映向量合成后的模长不会超过各自模长之和,符合几何直觉。
- 非负性:$ f(\boldsymbol{x}) \geq 0 $,且仅当 $ \boldsymbol{x} = \boldsymbol{0} $ 时取等号,确保只有零向量的“大小”为零。
常见 L-p 范数类型
对于 $ n $ 维向量 $ \boldsymbol{X} = (x_1, x_2, \dots, x_n) $,L-p 范数定义如下:
$$ ||\boldsymbol{X}||_p = \left( \sum_{i=1}^{n} |x_i|^p \right)^{\frac{1}{p}}, \quad p \geq 1 $$
不同 $ p $ 值对应不同的范数形式,各有侧重:
- L1 范数(曼哈顿范数):当 $ p=1 $ 时,
$$
||\boldsymbol{X}||_1 = \sum_{i=1}^{n} |x_i|
$$
几何含义:在二维空间中,L1 距离是从一点沿坐标轴走到另一点所需的步数总和,类似城市街区路径,因此又称“曼哈顿距离”。
特性:对异常值不敏感,并具备稀疏性诱导能力——在优化中促使部分权重趋近于零。
应用场景:
- L1 正则化:在损失函数中加入 $ ||w||_1 $ 项,促使模型自动进行特征选择,简化网络结构;
- 鲁棒建模:处理含噪声或离群点的数据时,使用 L1 损失可减少极端值对训练的影响。
[1,:]L2 范数(欧氏距离)
当参数 p 取值为 2 时,对应的范数称为 L2 范数,其数学表达式如下:
$$||\boldsymbol{X}||_2 = \sqrt{\sum_{i=1}^{n} x_i^2}$$
几何意义:在二维或三维空间中,L2 范数表示两点之间的直线距离,是衡量向量长度最直观的方式。
核心特性:由于涉及平方运算,L2 范数对向量中的异常值较为敏感,会放大这些极端值的影响。在优化过程中,它倾向于使权重整体趋于较小的数值,而非直接归零。
在深度学习中的典型应用包括:
- L2 正则化(又称权重衰减):通过在损失函数中引入权重的 L2 范数项,控制模型复杂度,缓解过拟合问题,提升泛化能力。
- 相似性度量:在 KNN、K-Means 等算法中,使用 L2 范数计算样本间的欧氏距离以判断相近程度。
- 梯度优化辅助:利用损失函数关于参数的 L2 范数来评估梯度规模,进而调整学习率策略。
L∞ 范数(无穷范数)
当 p 趋近于无穷大时,Lp 范数收敛至 L∞ 范数,定义如下:
$$||\boldsymbol{X}||_\infty = \max(|x_1|, |x_2|, \dots, |x_n|)$$
几何解释:该范数仅关注向量中绝对值最大的元素,在二维空间中表现为以原点为中心的正方形边界上的最大距离。
主要特点:强调“峰值”信息,忽略其余分量,适用于快速评估向量的最大幅值。
在深度学习中的应用场景有:
- 对抗攻击分析:用于限制输入扰动的最大单点变化幅度,测试模型面对微小但集中干扰时的稳定性。
- 梯度裁剪技术:通过对梯度向量施加 L∞ 范数约束,防止训练过程中出现梯度爆炸现象。
矩阵的范数
范数的概念不仅适用于向量,也可推广至矩阵领域。其中,最常用的是F-范数(弗罗贝尼乌斯范数)。对于一个 m×n 的矩阵 A,其定义为:
$$||\boldsymbol{A}||_F = \sqrt{\sum_{i=1}^{m} \sum_{j=1}^{n} A_{ij}^2}$$
核心特性:F-范数等价于将整个矩阵展平为一个长向量后计算其 L2 范数,满足非负性、齐次性和三角不等式三大基本性质。
在深度学习中的用途主要包括:
- 矩阵逼近任务:在主成分分析(PCA)、奇异值分解(SVD)等降维方法中,用 F-范数衡量原始矩阵与低秩近似之间的差异。
- 模型正则化手段:对神经网络中的权重矩阵施加 F-范数惩罚项,抑制参数过度增长,降低过拟合风险。
范数的核心应用汇总
| 范数类型 | 核心特性 | 典型应用场景 |
|---|---|---|
| L1 范数 | 促进稀疏解,对异常值具有较强鲁棒性 | 特征选择、L1 正则化 |
| L2 范数 | 衡量向量的欧氏长度,促使权重平滑分布 | 权重衰减、样本间距离计算 |
| L∞ 范数 | 聚焦最大绝对值分量 | 梯度裁剪、对抗样本扰动分析 |
| F-范数 | 反映矩阵整体规模大小 | 低秩近似、矩阵正则化 |
微积分:深度学习中的关键优化工具
微积分提供了研究函数变化规律的数学基础,尤其在梯度下降类优化算法中起着核心作用。
函数的基本概念
函数描述了从输入到输出的映射关系。例如,在深度学习中最常见的线性函数形式为:
$$y = wx + b$$
其中,w 表示权重参数,b 为偏置项。
导数与偏导数
导数:刻画单变量函数在某一点处的变化率,即曲线的切线斜率。
偏导数:针对多元函数(如 $z = x^2 + y^2$),在求某个变量的偏导时,其余变量被视为常量。
举例说明:
$$\frac{\partial z}{\partial x} = 2x,\quad \frac{\partial z}{\partial y} = 2y$$
梯度(Gradient)
梯度是由多元函数所有偏导数组成的向量,指示函数增长最快的方向。
设输入向量 $\boldsymbol{X} = [x_1, x_2, \cdots, x_n]^T$,输出为标量,则函数 $f(x)$ 关于 $\boldsymbol{X}$ 的梯度定义为:
$$\nabla_X f(x) = \left[\frac{\partial f(x)}{\partial x_1}, \frac{\partial f(x)}{\partial x_2}, \cdots, \frac{\partial f(x)}{\partial x_n}\right]^T$$
链式法则
链式法则是计算复合函数导数的重要工具,也是深度学习中反向传播算法的理论基石。
若存在 $y = f(u)$ 且 $u = g(x)$,两者均可导,则有:
$$\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}$$


雷达卡


京公网安备 11010802022788号







