【机器学习中的数学】从西格玛代数、测度空间到随机变量
σ代数令X是一个样本空间(sample space)Ω的所有子集(subsets)的集合的一个子集,那么集合X被称为σ代数(σ-algebra)又叫σ域(σ-field)。
它有以下几个性质:
(1)Φ∈X;(Φ为空集)
(2)若A∈X,则A的补集A^c∈X;
(3)若Ai∈X(i=1,2,…)则∪Ai∈X;
可测空间
Ω是任意集合,而X是把Ω中的极端情况去掉后又Ω的子集组成的集合,这样剩下的就是可以处理的集合,所以(Ω,X)称为可测空间(a measurable set)。X满足σ代数的三个性质,我们可以对X中的元素定义测度,故X的元素称为可测集(measurable set)。
测度空间
定义了测度的可测空间称为测度空间。
令(Ω,X)为一个可测空间,在X中定义一个方程ν称为测度(a measure)。
它满足以下条件:
(i )非负性:0≤ν≤∞
(ii )ν(空集)=0
(iii)如果Xi ∈X,其中Xi互不相交,则ν(∪Xi)=Σν(Xi)。
那么(Ω,X,ν)称为测度空间(measure space)。
勒贝格测度(Lebesgue Measure)
数学上,勒贝格测度是赋予欧几里得空间的子集一个长度、面积、或者体积的标准方法。它广泛应用于实分析,特别是用于定义勒贝格积分。可以赋予一个体积的集合被称为勒贝格可测;勒贝格可测集A的体积或者说测度记作λ(A)。
- 如果A是一个区间[a, b], 那么其勒贝格测度是区间长度b−a。 开区间(a, b)的长度与闭区间一样,因为两集合的差是零测集。
- 如果区间是[0,1],勒贝格测度L([0,1])是一个概率测度。
如果ν(Ω)=1,则ν是概率测度,记为P。(Ω,X,P)称为概率空间。
这样,我们可以将P当做是对集合的一种测度,将集合和概率联系起来。
概率论研究的概率空间就是一个测度空间(Ω,X,P),其中P是定义在X中的测度,叫概率测度。集合Ω我们一般叫做样本空间,X中的元素叫可测集,但是我们更愿意叫做事件,而把X叫做事件域。任取X中元素A,它是Ω的子集,这时是一个事件,它的测度P(A)就是事件A的概率。可见这三元组(Ω,X,P)中的东西缺一不可。
对可测空间和测度空间的讨论
我们知道任一事件都是样本空间的子集,但样本空间的子集却不一定是事件。为了讨论方便,还是用一个比较好理解的现象作一个比喻。 假设研究人的性取向,这样样本空间X={男,女,不男不女},由于不男不女不好确定其性取向,这样在研究时就将这种情况排出,只研究男和女。或者说,样本空间是Ω={全体男人和女人},是个有限集,其对应的事件域取F={Ω的子集全体}完全可以,(Ω, F)就是可测空间。你说的性取向问题对应的F上的概率测度P是未知的,需要用统计方法确定。
更常见的做法是在(Ω,F,P)上定义一个随机变量,用统计方法确定随机变量的分布而不是P本身。例如任取ω∈Ω,定义X(ω)=0;若ω是和尚,X(ω)=1;若ω是尼姑,X(ω)=2;若ω是丈夫,X(ω)=3;若ω是妻子,X(ω)=4。
随机变量
定义一个随机变量X是一个可测的映射(a measurable map)X:Ω->R(该映射将集合映射成一个实数),使得Ω的任意一个元素ω(即事件)通过X(ω)赋予其一个实数。
这里,可测的意思是对于每个x,都有{ω:X(ω)≤x} ∈ A,这里的A是一个σ代数,其中的元素是可测的。
所以,概率是一个作用在集合中的测度。
分布函数
分布函数(Distribution Function,又称Cumulation Distribution Function),是一个映射Fx:R->[0,1]。
Fx(x)=P(X≤x),分布函数Fx将一个事件对应的随机变量映射为0到1的一个概率值。
【机器学习中的数学】广义逆高斯分布及其特例
引言
广义逆高斯作为一种含义丰富的概率分布,其参数为特定值时又衍生出几种经典有用的分布,现做一整理介绍。
广义逆高斯分布(Generalized Inverse Gaussian Distribution)
广义逆高斯分布的概率密度函数为:
[img]C:\Users\Administrator\AppData\Local\YNote\data\qqC54B3287ABFB358FC8A82CB3D0CA575C\7270bd14ae9846a0823eaf6042299ba3
其中,Kp是a>0且b>0的第二类修正贝塞尔函数(Modified Bessel function of the second kind)。
特别要注意这里,支撑集是x>0,即对于非负随机变量。
其中第二类修正贝塞尔函数满足以下性质:
[img]C:\Users\Administrator\AppData\Local\YNote\data\qqC54B3287ABFB358FC8A82CB3D0CA575C\9614172b249242c4a36b24fa9abd6577
伽玛分布(Gamma Distribution)
当上面的广义逆高斯分布的b=0,r>0,a>0时,称为伽玛分布。
[img]C:\Users\Administrator\AppData\Local\YNote\data\qqC54B3287ABFB358FC8A82CB3D0CA575C\91d03f0f85964031a8f2bfde87c34d82
记为X~Ga(p,a/2),这里的p称为形状参数,a/2称为尺度参数。
其实际定义与观念是假设随机变量X为等到第p件事发生所需之等候时间。
伽玛分布满足加成性,当两随机变量服从Gamma分配,互相独立,且单位时间内频率相同时,Gamma分布具有加成性。
[img]C:\Users\Administrator\AppData\Local\YNote\data\qqC54B3287ABFB358FC8A82CB3D0CA575C\9fc360826f0f4c6fa4b98bb9c43b900c
当p=1时,Gamma分布变成了指数分布(Exponential Distribution)。
逆伽玛分布(Inverse Gamma Distribution)
令广义逆高斯分布的参数a=0,r<0,b>0,就称作逆伽玛分布。
[img]C:\Users\Administrator\AppData\Local\YNote\data\qqC54B3287ABFB358FC8A82CB3D0CA575C\f657d7bc74bf429c9554935b350f1567
这里的τ=-p,记为IG(τ,b/2)。
逆高斯分布(Inverse Gaussian Distribution)
令广义逆高斯分布的参数p=-1/2,称为逆高斯分布。
先验分布和后验分布共轭的意义
从贝叶斯角度进行参数估计,是求最大后验估计的过程。要求先验分布和后验分布是同一种形式但参数不同的分布(即先验分布和后验分布呈共轭关系),这是一个数学技巧,可以使计算变得简单,而求后验概率最大的积分过程转化成了求后验分布的众数(mode)的过程。
实例一
假设随机变量X~Bernoulli(θ),0<θ<1。
因为θ的取值是在(0,1)之间,很自然会想到Beta分布是定义在该区间的,故给θ一个Beta分布作为先验,θ~Beta(α,β)。这也是一个Beta分布。
实例二
假设随机变量X~N(0,λ),这里我们把方差σ^2设为λ,其中λ>0。
(1)我们假设λ满足Gamma分布,λ~Ga(λ|r,α/2)。这是一个广义逆高斯分布,当然我们也可以把Gamma分布看做一个广义逆高斯分布,但这做起来比较麻烦
(2)我们假设λ满足逆Gamma分布,λ~Ig(τ,β/2)。这也是一个逆Gamma分布。
这样方便计算。
【机器学习中的数学】比例混合分布
比例混合分布(Scale Mixture Distribution)
混合分布是来自其他随机变量的集合构成的随机变量的概率分布:一个随机变量是根据给定的概率从集合随机选取的,然后所选随机变量的值就得到了( first, a random variable is selected by chance from the collection according to given probabilities of selection, and then the value of the selected random variable is realized)。
当潜在的随机变量是连续的情况下,混合得到的随机变量也是连续的,并且其概率密度函数有时被称作是一个混合密度,其累积分布函数(cumulative distribution function)可以表示成其他分布函数的凸组合(convex combination,i.e. a weighted sum, with non-negative weights that sum to 1)。
有限可数混合体
给定一个有限的概率密度函数集合p1(x),…,pn(x),或者相对应的累积分布函数P1(x),…,Pn(x)和权值w1,…,wn(wi>=0,sum(wi)=1),该混合分布可以被表示为密度函数f,或者分布函数F:
[img]C:\Users\Administrator\AppData\Local\YNote\data\qqC54B3287ABFB358FC8A82CB3D0CA575C\45cde21f887f4f5ab9ee039d84961b05
这种类型的混合体称作有限混合(finite mixture)。
不可数混合体
当组成的分布式不可数的,这个分布就被称为混合概率分布(compound probability distribution)。这种分布的构造是用积分来代替有限情况下的求和形式。
考虑一个随机变量为x,参数为a的概率密度函数p(x;a)。对于在集合A中的每一个值a,p(x;a)是一个关于x的概率密度函数,给出概率密度函数w(要求w非负且积分为1),则函数:
[img]C:\Users\Administrator\AppData\Local\YNote\data\qqC54B3287ABFB358FC8A82CB3D0CA575C\803c35ab6c224f3bae4240fae09dfd24
f(x)就是一个关于x的概率密度函数。
Gamma函数
了解Gamma函数的性质和一些有用的计算公式,在后面复杂的分布中会用到这些公式和表示方式。
[img]C:\Users\Administrator\AppData\Local\YNote\data\qqC54B3287ABFB358FC8A82CB3D0CA575C\0ba11e62bc1542b1971318b49ef0e1fb
[img]C:\Users\Administrator\AppData\Local\YNote\data\qqC54B3287ABFB358FC8A82CB3D0CA575C\b556f49282064823acb903ea34ae08ba
学生t-分布(Student’s t-distribution)
在概率论和统计学中,学生t-分布(Student’s t-distribution),可简称为t分布。应用在估计呈正态分布的母群体之平均数。它是对两个样本均值差异进行显著性测试的学生t检定的基础。
[img]C:\Users\Administrator\AppData\Local\YNote\data\qqC54B3287ABFB358FC8A82CB3D0CA575C\6c68e90826dd4c84886c1908e96f2ec9
其中,ν被称作自由度(degrees of freedom),当ν=1时,该分布退化为柯西分布(Cauchy Distribution);当ν→∞时,该分布为高斯分布。
Scale Mixture of Normals
Student T分布可以看做是正态分布和Gamma分布的混合体,由于是连续分布,所以该混合体表示为积分形式。其公式推导如下,在求解积分时用到了之前Gamma函数中列举的有用的积分公式:
[img]C:\Users\Administrator\AppData\Local\YNote\data\qqC54B3287ABFB358FC8A82CB3D0CA575C\33ebf25e5ec4428199af6d1ebc888793
Laplace分布及其混合分布
laplace分布
在概率论与统计学中,拉普拉斯分布是以皮埃尔-西蒙·拉普拉斯的名字命名的一种连续概率分布。由于它可以看作是两个不同位置的指数分布背靠背拼接在一起,所以它也叫作双指数分布。两个相互独立同概率分布指数随机变量之间的差别是按照指数分布的随机时间布朗运动,所以它遵循拉普拉斯分布。
如果随机变量的概率密度函数分布为:
那么它就是拉普拉斯分布。其中,μ是位置参数,b>0是尺度参数。
Gaussian-Exponential Mixture
laplace分布可以看成是高斯分布和指数分布的混合体。
[img]C:\Users\Administrator\AppData\Local\YNote\data\qqC54B3287ABFB358FC8A82CB3D0CA575C\bc8915614210412482bef6ea3138745d
负二项分布及其混合分布
负二项分布(Negative Biomial Distribution)
负二项分布是统计学上一种离散概率分布。“负二项分布”与“二项分布”的区别在于:“二项分布”是固定试验总次数N的独立试验中,成功次数k的分布;而“负二项分布”是所有到成功r次时即终止的独立试验中,失败次数k的分布。
Gamma-Poisson Mixture
Negative Biomial分布可以看做是Gamma分布和泊松分布的混合体。
[img]C:\Users\Administrator\AppData\Local\YNote\data\qqC54B3287ABFB358FC8A82CB3D0CA575C\10b0c92dd96e409c938cc0936cede39d
混合分布的意义
这里我们列举了三种常见分布及其混合分布,这种混合分布的表示形式的意义在于,复杂分布的期望和方差等数字特征不好求解,但可以将其表示为更加简单的分布的混合形式,我们知道高斯分布、泊松分布等分布的数字特征可以由其参数得到,这样的话,就可以很容易的通过简单的分布得到复杂分布的一些数字特征