几种分布概述(正态分布/卡方分布/F分布/T分布)
搞清楚了下面的几种分布,在置信区间估计、显著性检验等问题中就会收到事半功倍的效果。come on~!
正态分布:正态分布(Normal distribution)又名高斯分布(Gaussiandistribution),若随机变量X服从一个数学期望为μ、方差为σ^2的高斯分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。
当μ=0,σ=1时,正态分布就成为标准正态分布N(0,1)。概率密度函数为:
正态分布的密度函数的特点是:关于μ对称,并在μ处取最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点,形状呈现中间高两边低,图像是一条位于x轴上方的钟形曲线。
卡方分布:若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ,均服从标准正态分布N(0,1)(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和
从分布图可以看出:分布在第一象限内,卡方值都是正值,呈正偏态(右偏态),随着参数 n 的增大;分布趋近于正态分布;随着自由度n的增大,分布向正无穷方向延伸(因为均值n越来越大),分布曲线也越来越低阔(因为方差2n越来越大)。
t分布:首先要提一句u分布,正态分布(normal distribution)是许多统计方法的理论基础。正态分布的两个参数μ和σ决定了正态分布的位置和形态。为了应用方便,常将一般的正态变量X通过u变换[(X-μ)/σ]转化成标准正态变量u,以使原来各种形态的正态分布都转换为μ=0,σ=1的标准正态分布(standard normaldistribution),亦称u分布。根据中心极限定理,通过抽样模拟试验表明,在正态分布总体中以固定 n 抽取若干个样本时,样本均数的分布仍服从正态分布,即N(μ,σ)。所以,对样本均数的分布进行u变换,也可变换为标准正态分布N (0,1)
由于在实际工作中,往往σ(总体方差)是未知的,常用s(样本方差)作为σ的估计值,为了与u变换区别,称为t变换,统计量t 值的分布称为t分布。假设X服从标准正态分布N(0,1),Y服从(n)分布,那么Z=X/sqrt(Y/n)的分布称为自由度为n的t分布,记为 Z~t(n)。
可以看出,t分布以0为中心,左右对称的单峰分布;t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关。自由度ν越小,t分布曲线越低平;自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线。
F分布:设X、Y为两个独立的随机变量,X服从自由度为n的分布,Y服从自由度为m的分布,这两个独立的卡方分布除以各自的自由度以后的比率服从F分布。即:
F分布是一种非对称分布;它有两个自由度,即n-1和m-1,相应的分布记为F( n–1,m-1), n-1通常称为分子自由度, m-1通常称为分母自由度;F分布是一个以自由度(n-1)和(m-1)为参数的分布族,不同的自由度决定了F 分布的形状。