在概率论中,我们已经学过低维正态分布随机变量了。它太优美了,用它来做例子再合适不过了。
进一步,我们考虑一个高维空间上的正态分布随机变量 <span class="MathJax_SVG" id="MathJax-Element-1-Frame" tabindex="0" data-mathml="X∈Rn∼N(μ,In)" role="presentation" style="display: inline-block; line-height: normal; font-size: 16px; word-spacing: normal; overflow-wrap: normal; white-space: nowrap; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; position: relative;">X∈Rn~N(μ,In) (如果不了解它是什么,您可以简单假想它是在每个维度上都服从正态分布的高维随机变量)。它会呈现什么性质呢?
事实上,高维正态随机变量的概率密度都聚集在一个球壳上!
实例二:一个中心化的例子思考:扔一个均匀的硬币 <span class="MathJax_SVG" id="MathJax-Element-2-Frame" tabindex="0" data-mathml="N" role="presentation" style="display: inline-block; font-weight: normal; line-height: normal; font-size: 16px; word-spacing: normal; overflow-wrap: normal; white-space: nowrap; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; position: relative;">N 次,有多大的概率你可以得到至少 <span class="MathJax_SVG" id="MathJax-Element-4-Frame" tabindex="0" data-mathml="34N" role="presentation" style="display: inline-block; font-weight: normal; line-height: normal; font-size: 16px; word-spacing: normal; overflow-wrap: normal; white-space: nowrap; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; position: relative;">34N 个正面呢?
即: \frac{3}{4}N) \leq p"><span class="MathJax_SVG" id="MathJax-Element-5-Frame" tabindex="0" data-mathml="P(SN>34N)≤p" role="presentation" style="display: inline-block; line-height: normal; font-size: 16px; word-spacing: normal; overflow-wrap: normal; white-space: nowrap; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; position: relative;">P(SN>34N)≤p ,求解 <span class="MathJax_SVG" id="MathJax-Element-3-Frame" tabindex="0" data-mathml="p" role="presentation" style="display: inline-block; line-height: normal; font-size: 16px; word-spacing: normal; overflow-wrap: normal; white-space: nowrap; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; position: relative;">p 的下界
如果你学过概率论,你可以快速地想到两种方式:
1. 可以用切比雪夫不等式进行求解
<span class="MathJax_SVG" id="MathJax-Element-6-Frame" tabindex="0" data-mathml="P(SN≥34N)≤P(|SN−N2|≥N4)≤4N" role="presentation" style="display: inline-block; line-height: normal; font-size: 16px; word-spacing: normal; overflow-wrap: normal; white-space: nowrap; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; position: relative;">P(SN≥34N)≤P(|SN−N2|≥N4)≤4N
但是一个线性收敛率是没有办法满足我们的需要的,还有没有别的可能呢?
2. 当N足够大的时候,可以使用中心极限定理(CLT)进行求解
<span class="MathJax_SVG" id="MathJax-Element-7-Frame" tabindex="0" data-mathml="SN−N/2N/4≈Z∼N(0,1)" role="presentation" style="display: inline-block; line-height: normal; font-size: 16px; word-spacing: normal; overflow-wrap: normal; white-space: nowrap; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; position: relative;">SN−N/2N/4≈Z~N(0,1)
正态分布的尾巴部分——正如我们预料的那样,是一个指数级别收敛的情况!看起来简直太美好了,我们好像是得到了 <span class="MathJax_SVG" id="MathJax-Element-9-Frame" tabindex="0" data-mathml="p" role="presentation" style="display: inline-block; line-height: normal; font-size: 16px; word-spacing: normal; overflow-wrap: normal; white-space: nowrap; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; position: relative;">p 的一个随着 <span class="MathJax_SVG" id="MathJax-Element-8-Frame" tabindex="0" data-mathml="N" role="presentation" style="display: inline-block; line-height: normal; font-size: 16px; word-spacing: normal; overflow-wrap: normal; white-space: nowrap; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; position: relative;">N 指数收敛的近似。
但是很遗憾,问题出现在上面的近似号中。这个近似号的收敛率还是线性的(Berry-Esseen central limit theorem),因此最后的整体下界仍然是一个线性收敛。
看到这里,我们可以稍微停留一下,为什么,看起来应该是一个指数收敛(因为CLT保证我们它和正态分布长得很像)的例子,却只能获得一个线性收敛的结果呢?
本质上,切比雪夫不等式和中心极限定理都不能很好的应用 <span class="MathJax_SVG" id="MathJax-Element-10-Frame" tabindex="0" data-mathml="SN" role="presentation" style="display: inline-block; font-weight: normal; line-height: normal; font-size: 16px; word-spacing: normal; overflow-wrap: normal; white-space: nowrap; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; position: relative;">SN 是一个二项分布的条件!
因此,在实际应用中,我们会使用其他类型的不等式(例如Hoeffding's Inequality, Chernoff's inequality)。进而得到漂亮的结果。
Hoeffding's Inequality
在介绍本不等式之前,我们首先要了解一下什么是次高斯分布(Sub-Gaussian distributions)。
我们可以简单地考虑:尾巴的收敛率不慢于正态的分布就是次高斯分布。用数学表达就是
<span class="MathJax_SVG" id="MathJax-Element-12-Frame" tabindex="0" data-mathml="P(|X|≥t)≤2exp(−t2/K2)" role="presentation" style="display: inline-block; line-height: normal; font-size: 16px; word-spacing: normal; overflow-wrap: normal; white-space: nowrap; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; position: relative;">P(|X|≥t)≤2exp(−t2/K2) , <span class="MathJax_SVG" id="MathJax-Element-11-Frame" tabindex="0" data-mathml="K" role="presentation" style="display: inline-block; line-height: normal; font-size: 16px; word-spacing: normal; overflow-wrap: normal; white-space: nowrap; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; position: relative;">K 是一个常数。
我们需要特别强调,所有有界的随机变量都是次高斯分布。
对于次高斯分布 <span class="MathJax_SVG" id="MathJax-Element-13-Frame" tabindex="0" data-mathml="X" role="presentation" style="display: inline-block; line-height: normal; font-size: 16px; word-spacing: normal; overflow-wrap: normal; white-space: nowrap; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; position: relative;">X 来说,下列不等式成立
<span class="MathJax_SVG" id="MathJax-Element-14-Frame" tabindex="0" data-mathml="P(|∑i=1NXi|≥t)≤2exp(−ct2∑i=1N‖Xi‖ψ22)" role="presentation" style="display: inline-block; line-height: normal; font-size: 16px; word-spacing: normal; overflow-wrap: normal; white-space: nowrap; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; position: relative;">P(|∑i=1NXi|≥t)≤2exp(−ct2∑i=1N‖Xi‖ψ22)
其中, <span class="MathJax_SVG" id="MathJax-Element-15-Frame" tabindex="0" data-mathml="c" role="presentation" style="display: inline-block; line-height: normal; font-size: 16px; word-spacing: normal; overflow-wrap: normal; white-space: nowrap; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; position: relative;">c 是一个和N无关的常数, <span class="MathJax_SVG" id="MathJax-Element-16-Frame" tabindex="0" data-mathml="‖Xi‖ψ2" role="presentation" style="display: inline-block; line-height: normal; font-size: 16px; word-spacing: normal; overflow-wrap: normal; white-space: nowrap; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; position: relative;">‖Xi‖ψ2 是一个和次高斯分布本身有关的数值。具体的细节,如果你想多了解一些,可以参考最上面提到的材料。这里我们只强调:次高斯分布尾巴的收敛率是指数的!
Bernstein's inequality
略说一下这个不等式。他主要是针对次指数分布(Sub-Exponential Distribution),也是一个关于中心化的不等式。它的形式比较独特,不过因为次指数涵盖的随机变量要多于次高斯分布,这个不等式也是非常常用的!


雷达卡






京公网安备 11010802022788号







