楼主: woshizhaohe
454 0

[其他] 深度学习预备知识:数据操作、线性代数与微积分基础 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

学前班

80%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0.0120
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
30 点
帖子
2
精华
0
在线时间
0 小时
注册时间
2018-5-27
最后登录
2018-5-27

楼主
woshizhaohe 发表于 2025-12-9 07:04:07 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

深度学习基础入门:数据处理、线性代数与微积分核心概念

掌握深度学习的第一步,是理解其背后的数学原理和数据结构。本文系统梳理了进入深度学习领域所需的关键预备知识,包括张量操作、线性代数基础、降维策略、范数定义以及微积分中的关键工具,为后续模型构建打下坚实基础。

一、N维数组(张量)——数据的核心载体

在神经网络与机器学习中,所有数据均以张量形式进行表示与处理。不同维度的张量对应不同的实际应用:

维度名称典型应用场景
0维标量类别标签(如“猫”或“狗”)
1维向量单个样本的特征集合(如身高、体重等)
2维矩阵多个样本的特征数据表(行=样本,列=特征)
3维3D张量彩色图像(宽度 × 高度 × RGB通道)
4维4D张量图像批量输入(批量大小 × 宽 × 高 × 通道)
5维5D张量视频序列(时间帧 × 批量 × 宽 × 高 × 通道)

张量元素的索引访问(以4×4矩阵为例)

对于一个4×4的二维张量,可通过多种方式灵活获取子集:

  • 单个元素
    [1,2]
    → 可提取具体值
    7

    (注:索引起始依编程框架而定,常见从0或1开始)
  • 整行访问
    [1,:]
    → 获取第1行全部元素,例如得到
    (5,6,7,8)
  • 整列访问
    [:,1]
    → 提取第1列的所有行,结果如
    (2,6,10,14)
  • 子区域切片
    [1:3,1:]
    (左闭右开区间)→ 截取第1-2行、第1列之后的部分,输出为
    (6,7,8,10,11,12)
  • 带步长采样
    [:,1:3,:2]
    → 按每3行取一次、每2列取一次的方式抽样,获得
    (1,3,13,15)

二、线性代数基础:构建模型的数学支柱

线性代数构成了深度学习算法运行的底层逻辑,主要涉及标量、向量和矩阵的基本运算。

1. 标量(0维张量)

标量即单一数值,是最简单的数学对象,基本操作如下:

  • 基础算术
    C = a + b
    c = a · b
    c = sin a
  • 绝对值(长度)
    |a| = { a, 若 a > 0; -a, 其他情况 }
  • 不等式性质
    |a + b| ≤ |a| + |b|
    |a · b| = |a| · |b|

2. 向量(1维张量)

向量是由有序数值组成的集合,支持多种逐元素操作:

  • 加法:c = a + b,其中 ci = ai + bi
  • 乘法:c = a · b,其中 ci = aibi
  • 函数映射:c = sin a,其中 ci = sin(ai)
  • L2范数(长度)
    ||a|| = [∑in ai]
  • 基本性质
    ||a|| ≥ 0
    ||a + b|| ≤ ||a|| + ||b||
    ||a · b|| ≤ |a| · ||b||
  • 点乘(内积)
    ab = ∑in aibi
  • 正交性判断
    若 ab = 0,则两个向量正交

3. 矩阵(2维张量)

矩阵是二维数组,广泛用于存储和变换数据,常见操作包括:

  • 逐元素加法:C = A + B,其中 Cij = Aij + Bij

三、高维数据简化:降维方法概述

面对高维数据带来的“维度灾难”,常用以下三种方式进行有效压缩:

  1. 聚合降维(Aggregation):通过统计汇总(如均值、总和)减少数据量。
  2. 投影降维(Projection):将数据映射到低维空间,典型方法如主成分分析(PCA)。
  3. 特征选择降维(Feature Selection):保留最具代表性的原始特征,剔除冗余项。

四、衡量向量“大小”:范数的应用

范数用于量化向量或矩阵的规模,在优化与正则化中起重要作用。

1. 常见L-p范数类型

  • L1范数(曼哈顿距离):各元素绝对值之和,强调稀疏性。
  • L2范数(欧氏距离):平方和开根号,衡量整体大小。
  • L∞范数(无穷范数):取绝对值最大元素,反映极端值。

2. 矩阵的范数

可扩展至矩阵形式,如Frobenius范数等,用于权重矩阵的约束。

3. 范数的核心用途总结

主要用于损失函数设计、正则化项添加(如L1/L2正则)、梯度裁剪等方面,提升模型稳定性与泛化能力。

五、微积分:驱动模型优化的引擎

微积分提供了参数更新与误差反向传播的理论依据,是训练神经网络不可或缺的工具。

1. 函数表达

模型本质是一系列复合函数的组合,输入经多层变换输出预测结果。

2. 导数与偏导数

描述函数在某一点的变化率;对于多元函数,偏导数衡量某一变量单独变化的影响。

3. 梯度(Gradient)

由所有偏导数组成的向量,指示函数增长最快的方向,指导参数调整方向。

4. 链式法则

用于计算复合函数的导数,是反向传播算法的数学基础,实现误差从输出层逐层回传。

在深度学习中,数据的处理离不开基本的数学运算与结构化操作。以下是对向量、矩阵等数据对象的核心运算方式及其特性的整理。

一、基本运算操作

逐元素运算(Element-wise Operations):当两个同维度的张量进行加法或函数映射时,操作是在对应位置上独立进行的。

  • 加法:对于相同形状的矩阵 $ A $ 和 $ B $,其和为 $ C = A + B $,其中每个元素满足 $ C_{ij} = A_{ij} + B_{ij} $。
  • 数乘:标量 $ \alpha $ 与矩阵 $ B $ 相乘得到 $ C = \alpha \cdot B $,即 $ C_{ij} = \alpha B_{ij} $。
  • 函数映射:如 $ C = \sin A $,表示对矩阵 $ A $ 的每一个元素应用正弦函数,即 $ C_{ij} = \sin A_{ij} $。

矩阵乘法(Matrix Multiplication):不同于逐元素运算,矩阵乘法涉及内积计算,具有更复杂的结构意义。

  • 矩阵×向量:若 $ c = Ab $,则结果向量的第 $ i $ 个元素为 $ c_i = \sum_{j}^{n} A_{ij} b_j $,相当于矩阵每行与向量做点积。
  • 矩阵×矩阵:设 $ C = AB $,则 $ C_{ik} = \sum_{j}^{n} A_{ij} B_{jk} $,即第一个矩阵的行与第二个矩阵的列逐一对接求和。
[1,2]

二、高维数据的降维策略

面对高维特征空间带来的“维度灾难”,降维是提升模型效率与可解释性的关键手段。常见的方法可分为三类:

  1. 聚合降维(Aggregation):利用统计量将多个维度压缩为少数指标,例如对图像像素取均值、最大值或总和,从而生成一个低维甚至标量表示。这种方式简单高效,适用于初步特征提取。
  2. 投影降维(Projection):通过线性或非线性变换将原始数据映射到低维流形。
    • 线性投影:典型代表为主成分分析(PCA),能够将高维数据(如100维)压缩至少数主方向(如3维),保留最大方差信息。
    • 非线性投影:如 t-SNE,擅长保持局部邻近关系,常用于可视化高维数据集(如将MNIST手写数字嵌入二维平面展示聚类结构)。
  3. 特征选择降维(Feature Selection):不通过变换,而是直接剔除冗余或无关特征。
    • 移除方差极小的特征列(几乎不变的特征不具备区分能力);
    • 采用卡方检验等统计方法筛选出与目标变量相关性强的关键特征。
7

三、范数:量化向量与矩阵的“大小”

范数是一种将向量或矩阵映射为非负实数的函数,广泛应用于正则化、距离度量及优化过程中。要称为有效的范数,函数 $ f(\boldsymbol{x}) $ 必须满足以下三条公理:

  • 缩放性:对任意标量 $ \alpha $,有 $ f(\alpha \boldsymbol{x}) = |\alpha| \cdot f(\boldsymbol{x}) $。这保证了向量缩放后,其“长度”的变化比例一致。
  • 三角不等式:$ f(\boldsymbol{x}+\boldsymbol{y}) \leq f(\boldsymbol{x}) + f(\boldsymbol{y}) $,反映向量合成后的模长不会超过各自模长之和,符合几何直觉。
  • 非负性:$ f(\boldsymbol{x}) \geq 0 $,且仅当 $ \boldsymbol{x} = \boldsymbol{0} $ 时取等号,确保只有零向量的“大小”为零。

常见 L-p 范数类型

对于 $ n $ 维向量 $ \boldsymbol{X} = (x_1, x_2, \dots, x_n) $,L-p 范数定义如下:

$$ ||\boldsymbol{X}||_p = \left( \sum_{i=1}^{n} |x_i|^p \right)^{\frac{1}{p}}, \quad p \geq 1 $$

不同 $ p $ 值对应不同的范数形式,各有侧重:

  • L1 范数(曼哈顿范数):当 $ p=1 $ 时, $$ ||\boldsymbol{X}||_1 = \sum_{i=1}^{n} |x_i| $$

    几何含义:在二维空间中,L1 距离是从一点沿坐标轴走到另一点所需的步数总和,类似城市街区路径,因此又称“曼哈顿距离”。

    特性:对异常值不敏感,并具备稀疏性诱导能力——在优化中促使部分权重趋近于零。

    应用场景:

    • L1 正则化:在损失函数中加入 $ ||w||_1 $ 项,促使模型自动进行特征选择,简化网络结构;
    • 鲁棒建模:处理含噪声或离群点的数据时,使用 L1 损失可减少极端值对训练的影响。
[1,:]

L2 范数(欧氏距离)

当参数 p 取值为 2 时,对应的范数称为 L2 范数,其数学表达式如下:

$$||\boldsymbol{X}||_2 = \sqrt{\sum_{i=1}^{n} x_i^2}$$

几何意义:在二维或三维空间中,L2 范数表示两点之间的直线距离,是衡量向量长度最直观的方式。

核心特性:由于涉及平方运算,L2 范数对向量中的异常值较为敏感,会放大这些极端值的影响。在优化过程中,它倾向于使权重整体趋于较小的数值,而非直接归零。

在深度学习中的典型应用包括

  • L2 正则化(又称权重衰减):通过在损失函数中引入权重的 L2 范数项,控制模型复杂度,缓解过拟合问题,提升泛化能力。
  • 相似性度量:在 KNN、K-Means 等算法中,使用 L2 范数计算样本间的欧氏距离以判断相近程度。
  • 梯度优化辅助:利用损失函数关于参数的 L2 范数来评估梯度规模,进而调整学习率策略。

L∞ 范数(无穷范数)

p 趋近于无穷大时,Lp 范数收敛至 L∞ 范数,定义如下:

$$||\boldsymbol{X}||_\infty = \max(|x_1|, |x_2|, \dots, |x_n|)$$

几何解释:该范数仅关注向量中绝对值最大的元素,在二维空间中表现为以原点为中心的正方形边界上的最大距离。

主要特点:强调“峰值”信息,忽略其余分量,适用于快速评估向量的最大幅值。

在深度学习中的应用场景有

  • 对抗攻击分析:用于限制输入扰动的最大单点变化幅度,测试模型面对微小但集中干扰时的稳定性。
  • 梯度裁剪技术:通过对梯度向量施加 L∞ 范数约束,防止训练过程中出现梯度爆炸现象。

矩阵的范数

范数的概念不仅适用于向量,也可推广至矩阵领域。其中,最常用的是F-范数(弗罗贝尼乌斯范数)。对于一个 m×n 的矩阵 A,其定义为:

$$||\boldsymbol{A}||_F = \sqrt{\sum_{i=1}^{m} \sum_{j=1}^{n} A_{ij}^2}$$

核心特性:F-范数等价于将整个矩阵展平为一个长向量后计算其 L2 范数,满足非负性、齐次性和三角不等式三大基本性质。

在深度学习中的用途主要包括

  • 矩阵逼近任务:在主成分分析(PCA)、奇异值分解(SVD)等降维方法中,用 F-范数衡量原始矩阵与低秩近似之间的差异。
  • 模型正则化手段:对神经网络中的权重矩阵施加 F-范数惩罚项,抑制参数过度增长,降低过拟合风险。

范数的核心应用汇总

范数类型 核心特性 典型应用场景
L1 范数 促进稀疏解,对异常值具有较强鲁棒性 特征选择、L1 正则化
L2 范数 衡量向量的欧氏长度,促使权重平滑分布 权重衰减、样本间距离计算
L∞ 范数 聚焦最大绝对值分量 梯度裁剪、对抗样本扰动分析
F-范数 反映矩阵整体规模大小 低秩近似、矩阵正则化

微积分:深度学习中的关键优化工具

微积分提供了研究函数变化规律的数学基础,尤其在梯度下降类优化算法中起着核心作用。

函数的基本概念

函数描述了从输入到输出的映射关系。例如,在深度学习中最常见的线性函数形式为:

$$y = wx + b$$

其中,w 表示权重参数,b 为偏置项。

导数与偏导数

导数:刻画单变量函数在某一点处的变化率,即曲线的切线斜率。

偏导数:针对多元函数(如 $z = x^2 + y^2$),在求某个变量的偏导时,其余变量被视为常量。

举例说明:

$$\frac{\partial z}{\partial x} = 2x,\quad \frac{\partial z}{\partial y} = 2y$$

梯度(Gradient)

梯度是由多元函数所有偏导数组成的向量,指示函数增长最快的方向。

设输入向量 $\boldsymbol{X} = [x_1, x_2, \cdots, x_n]^T$,输出为标量,则函数 $f(x)$ 关于 $\boldsymbol{X}$ 的梯度定义为:

$$\nabla_X f(x) = \left[\frac{\partial f(x)}{\partial x_1}, \frac{\partial f(x)}{\partial x_2}, \cdots, \frac{\partial f(x)}{\partial x_n}\right]^T$$

链式法则

链式法则是计算复合函数导数的重要工具,也是深度学习中反向传播算法的理论基石。

若存在 $y = f(u)$ 且 $u = g(x)$,两者均可导,则有:

$$\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}$$

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:深度学习 线性代数 微积分 Aggregation Projection

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-29 20:39