1. 历史背景
17世纪,数学家帕斯卡(Blaise Pascal)和费马(Pierre de Fermat)在探讨赌博与分赌问题时,引入了“公平价值”的概念。当时面临的问题是如何合理分配未完成的赌局奖金?例如:两个赌徒中途停止游戏,如何依据已下注金额和赢的概率公正地分配奖金?为了解决这类问题,需要定义一种表示“平均收益”的数学量,即最早的期望概念。简而言之:期望起源于解决不确定事件的均值或公平价值。2. 数学动机
期望的引入主要是为了解决以下问题:2.1 如何量化随机变量的中心趋势
随机变量 \(X\) 可以有多种可能取值,每个取值都有一定的概率。我们需要一个单一数值来描述“\(X\) 的平均表现”。这就是期望 \(E[X]\) 的作用:对所有潜在结果按概率加权求和。 \[E[X] = \sum_i x_i P(X=x_i) \quad 或 \quad E[X] = \int x f_X(x) dx\]2.2 解决不确定性下的决策问题
在面对不确定结果时,决策者希望依据“平均结果”作出最合理的判断。例如:在赌局中根据平均收益决定是否下注;投资时根据期望回报评估风险与收益;工程设计时考虑平均负载或平均寿命。2.3 推动概率论的发展
从数学角度,期望提供了一种处理随机变量的线性算子,便于性质的推导:如线性性 \(E[aX+bY] = aE[X]+bE[Y]\)。结合方差、协方差等工具,形成了完整的随机变量分析框架。这为现代概率论、统计学、随机过程、金融数学及机器学习等领域奠定了基础。2.4 总结
期望提出的根本动机是:量化随机现象的平均趋势,使不确定事件可以用一个确定性的“代表值”来描述,方便分析、决策和计算。它解决了三类问题: - 描述随机变量的中心趋势 - 支持不确定性下的理性决策 - 提供数学工具促进概率论和统计学的发展3. 直观理解
期望可以视为长期平均值,即在多次重复随机实验中,虽然每次结果可能不同,但长期平均会趋近于某个数值。比如掷骰子的平均点数是3.5。期望衡量了不确定事件的“合理中心”,为决策或分析提供了基础。4. 数学中的基本定义
在概率论中,期望是指随机变量取值的“平均水平”或“加权均值”。它是描述随机变量整体趋势的重要指标。4.1 离散型随机变量的期望
假设 \(X\) 是一个离散型随机变量,可能取值为 \(x_1, x_2, \dots, x_n\),对应的概率分别为 \(p_1, p_2, \dots, p_n\),满足 \(\sum_{i=1}^{n} p_i = 1\)。则 \(X\) 的期望 \(E[X]\) 定义为: \[E[X] = \sum_{i=1}^{n} x_i p_i\] 示例:掷一个公平的六面骰子,\(X\) 表示点数,则: \[E[X] = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + \cdots + 6 \cdot \frac{1}{6} = 3.5\] 注:期望值可能不在随机变量的取值范围内(例如3.5不可能出现,但它是平均值)。4.2 连续型随机变量的期望
假设 \(X\) 是连续型随机变量,概率密度函数为 \(f_X(x)\),则期望定义为: \[E[X] = \int_{-\infty}^{+\infty} x f_X(x) , dx\] 示例:标准正态分布 \(X \sim N(0,1)\): \[f_X(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2}, \quad E[X] = \int_{-\infty}^{\infty} x \frac{1}{\sqrt{2\pi}} e^{-x^2/2} dx = 0\]4.3 一般函数的期望
如果有函数 \(g(X)\),其期望为: - 离散型:\(E[g(X)] = \sum_{i=1}^{n} g(x_i) p_i\) - 连续型:\(E[g(X)] = \int_{-\infty}^{\infty} g(x) f_X(x) dx\)\( E[g(X)] = \sum_i g(x_i) p_i \)
\( E[g(X)] = \int_{-\infty}^{+\infty} g(x) f_X(x) dx \)
例子
如果 \( X \sim \text{Bernoulli}(p) \),\( g(X) = X^2 \):
\( E[X^2] = 0^2(1 - p) + 1^2 \cdot p = p \)
注意:这里 \( X^2 \) 的期望与 \( X \) 相同,因为 \( 0^2 = 0, 1^2 = 1 \)。
离散型
将每个结果乘以它出现的概率再求和。
连续型
将概率密度函数乘以随机变量,积分求加权平均值。
核心思想
概率越大,对平均值的贡献也越大。
5. 期望的性质
线性性(Linearity)
\( E[aX + bY + c] = aE[X] + bE[Y] + c \)
无论 \( X, Y \) 是否独立。
单调性(Monotonicity)
如果 \( X \le Y \)(几乎处处成立),则 \( E[X] \le E[Y] \)。
非负性
如果 \( X \ge 0 \),则 \( E[X] \ge 0 \)。
独立性
期望本身不需要独立性,但对于乘积有:\( E[XY] = E[X]E[Y] \) 当且仅当 \( X, Y \) 独立。
多维随机变量
若 \( \mathbf{X} = (X_1, X_2, \dots, X_n) \),则向量期望定义为:\( E[\mathbf{X}] = (E[X_1], E[X_2], \dots, E[X_n]) \)
6. 条件期望
定义:给定事件 \( A \) 或随机变量 \( Y \),随机变量 \( X \) 的条件期望 \( E[X|A] \) 或 \( E[X|Y] \) 是在已知条件下的平均值。
对事件 \( A \):
\( E[X|A] = \frac{E[X \cdot 1_A]}{P(A)} \)
对随机变量 \( Y \):
\( E[X|Y] = g(Y) \)(是随机变量函数,使得 \( E[X|Y] \) 满足一定性质)
性质
全期望公式(Law of total expectation):
\( E[X] = E[E[X|Y]] \)
8. 期望的常用计算技巧
用对称性:例如掷骰子或抛硬币问题,可以用对称性直接求期望。
分部求和/积分:对于非负整数型随机变量 \( X \):
\( E[X] = \sum_{k=1}^{\infty} P(X \ge k) \)
概率母函数/矩母函数:期望可以通过矩母函数求:
\( M_X(t) = E[e^{tX}], \quad E[X] = M_X'(0) \)
线性组合技巧:如果 \( X = a_1 X_1 + \dots + a_n X_n \),直接用线性性:
\( E[X] = a_1 E[X_1] + \dots + a_n E[X_n] \)
9. 高阶期望与方差
方差:\( \text{Var}(X) = E[(X - E[X])^2] = E[X^2] - (E[X])^2 \)
协方差:\( \text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y] \)
Cov(X, Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y]
Cov ( X, Y ) = E [ ( X E [ X ]) ( Y E [ Y ])] = E [ X Y ] E [ X ] E [ Y ]
中心矩: μk = E[(X E[X])k
\mu_k = E[(X - E[X])^k]
μk = E[(X E[X])k]
非中心矩: μ'k = E[Xk]
\mu'_k = E[X^k]
μ'k = E[Xk]
10. 常见分布的期望
| 分布 | 参数 | 期望 |
|---|---|---|
| 伯努利 Bernoulli | p | p |
| 二项 Binomial | n, p | np |
| 泊松 Poisson | λ | λ |
| 指数 Exponential | λ | 1/λ |
| 正态 Normal | μ, σ2 | μ |
11. 常数的期望
1. 定义
假设 c 是一个常数(不依赖随机性),即它在任何实验或随机事件中取值都是固定的。
对于随机变量 X = c (恒等随机变量),期望 E[X] 的定义是:
离散型随机变量: E[c] = ∑i c · P(X = c) = c · ∑i P(X = c) = c · 1 = c
E[c] = \sum_i c \cdot P(X = c) = c \cdot \sum_i P(X = c) = c \cdot 1 = c
连续型随机变量: E[c] = ∫-∞+∞ c · f_X(x) , dx = c · ∫-∞+∞ f_X(x) , dx = c · 1 = c
E[c] = \int_{-\infty}^{+\infty} c \cdot f_X(x) , dx = c \cdot \int_{-\infty}^{+\infty} f_X(x) , dx = c \cdot 1 = c
直观理解:常数不随机,所以它的“平均值”就是它自己。
2. 例子
如果你掷骰子,但定义 X = 5 (无论掷出什么点数,X 总是 5),那么: E[X] = 5
E[X] = 5
如果一个金融资产每天固定收益 100 元,则期望收益: E[X] = 100
3. 性质
线性性: E[a · c + b] = a · c + b
E[a \cdot c + b] = a \cdot c + b
这其实是期望线性性的特殊情况。
与随机变量相加: 如果 Y 是任意随机变量: E[Y + c] = E[Y] + c
E[Y + c] = E[Y] + c
乘法: E[c · Y] = c · E[Y]
E[c \cdot Y] = c \cdot E[Y]
常数期望是期望运算中最简单、最基础的“边界情况”。
4. 总结
核心结论:常数的期望就是常数本身: E[c] = c
\boxed{E[c] = c}
直观理解:没有随机性,自然平均值就是自己。
12. 期望取条件期望
1. 条件期望回顾
设 X 和 Y 是随机变量, E[X | Y] 表示在已知 Y 的情况下 X 的期望。
对每个 Y = y,条件期望是: E[X | Y = y] = ∑x x , P(X = x | Y = y) (离散型)
E[X | Y=y] = \sum_x x , P(X=x | Y=y) \quad (\text{离散型})
或 E[X | Y = y] = ∫-∞+∞ x f_{X|Y}(x|y) , dx (连续型)
E[X | Y=y] = \int_{-\infty}^{+\infty} x f_{X|Y}(x|y) , dx \quad (\text{连续型})
条件期望本身是一个随机变量,它依赖于 Y。记作 g(Y) = E[X | Y]。
2. 期望取条件期望:全期望公式
公式: E[X] = E[E[X | Y]]
\boxed{E[X] = E[E[X | Y]]}
直观意义:先固定 Y 计算 X 的平均值,然后对 Y 的所有可能性再取平均。
不要求 X 和 Y 独立。
离散型例子 设 Y 只有两个值 0 和 1,概率分别为 p 和 1 - p。 条件期望: E[X | Y = 0] = a, E[X | Y = 1] = b
E[X|Y=0] = a, \quad E[X|Y=1] = b
则全期望: E[X] = E[E[X | Y]] = a · P(Y = 0) + b · P(Y = 1) = ap + b(1 - p)
E[X] = E[E[X|Y]] = a \cdot P(Y=0) + b \cdot P(Y=1) = a p + b (1-p)
E [ X ] = E [ E [ X ∣ Y ]] = a P ( Y = 0 ) + b P ( Y = 1 ) = a p + b ( 1 p )
连续型示例
设 (X|Y=y) \sim N(y, 1),且 Y \sim N(0, 1).
(X ∣ Y = y) \sim N(y, 1),且 Y \sim N(0, 1).
条件期望:E[X|Y] = Y
E[X|Y] = Y
取期望:E[X] = E[E[X|Y]] = E[Y] = 0
E[X] = E[E[X|Y]] = E[Y] = 0
注意:这里条件期望是随机变量 Y,对它求期望得到 X 的总体期望。
3. 特性与理解
可迭代性:E[X] = E[E[X|Y]] = E[E[X|Y,Z]] (可嵌套多条件)
E[X] = E[E[X|Y]] = E[E[X|Y,Z]] \quad \text{(可嵌套多条件)}
常数情况:如果 X=c 是常数,则:E[X|Y] = c, \quad E[E[X|Y]] = c = E[X]
E[X|Y] = c, \quad E[E[X|Y]] = c = E[X]
独立性简化:如果 X 与 Y 独立,则:E[X|Y] = E[X] \implies E[E[X|Y]] = E[X]
E[X|Y] = E[X] \implies E[E[X|Y]] = E[X]
这与全期望公式一致。
4. 示例
示例 1(离散):
Y 表示天气,取值 晴,雨,概率 0.7,0.3
X 表示每天销售额:E[X|Y=晴] = 1000, \quad E[X|Y=雨] = 600
E[X|Y] = \begin{cases} 1000 & \text{晴} \\ 600 & \text{雨} \end{cases}
全期望:E[X] = 0.7 \cdot 1000 + 0.3 \cdot 600 = 880
示例 2(连续):
Y \sim U[0,1],X|Y=y \sim \text{Uniform}[0, y]
E[X|Y=y] = \frac{y}{2} \implies E[X|Y] = \frac{Y}{2}
全期望:E[X] = E\left[\frac{Y}{2}\right] = \frac{1}{2} E[Y] = \frac{1}{2} \cdot \frac{1}{2} = \frac{1}{4}
条件期望本身随着 Y 变化,因此是随机变量。
4. 直观解释
条件期望 E[X|Y] 是 已知信息 Y 下的平均值。
全期望 E[E[X|Y]] 是把所有 Y 情况的条件平均再平均一次。
这就像 先分组求平均,再对组的概率加权求总平均。
13. 期望的应用场景
概率论:计算平均结果,评估随机事件的中心趋势。
统计学:估计样本均值与理论均值。
金融学:期望收益、风险评估。
机器学习:损失函数的期望,期望风险最小化。
工程学:系统可靠性分析,平均性能计算。


雷达卡




京公网安备 11010802022788号







