高斯分布相关知识的推导及应用
于德浩
2019.5.23
高斯分布是随机分布中最常见的一种,又称为正态分布。正态分布,我认为应该是源于误差分布。人们发现,测量误差总是在真值附近分布,于是就想找到这么一个数学函数来描述。一般特征,就是距离真值越远,观测事例就越稀少;而观测值大体是关于真值对称。于是,就成了正态分布概率密度函数的首选。我们归一化就得到了标准正态分布的概率密度函数,更通用的情形,人们实际是关注观测值距离真值的相对距离大小,即,所以,概率密度函数的最终形式就是。
概率归一化,即,我们令,则,从而,,所以,。在定积分变量代换时,有积分上下限的变化,x从负无穷到正无穷;t是x的线性变换,也是从负无穷到正无穷的积分范围。
从数学技巧来看,归一化是这么计算的。 则这个积分的平方,就转化为二维积分, 然后直角坐标系再转为极坐标系就是, 显然对r积分是1,对角度theta积分是2pi。所以,概率密度函数的全空间积分是1。
数学一阶原点矩的计算。
最后的第一项,用变量代换u=t^2/2,原函数就是简单的负指数函数。不过,在定积分的上下限中,由于不是线性变换,替换就不是显然一一对应的。即t从负无穷到正无穷;而u则是从正无穷到0,再到正无穷。最好还是换回原来t的表达式,原函数用t的上下限来相减,就不易混淆。最后的第二项,是常数mu乘以归一化的1,是显然的。
其实,第一项的计算中,由于是奇函数在对称空间的积分,所以从图形来看,这个积分是0,也是显然的。一阶原点矩就是期望值,是物理真值,是多个观测值的平均值。
数学二阶原点矩的计算。
最后的第一项要用到分部积分和罗必塔法则求极限。
这里的第一项是无穷*0=0,是因为指数函数的衰减到0更快;第二项是显然的归一化的1。
第一项的求极限,
我们说的方差,就是误差的平方,定义为二阶原点矩减去一阶原点矩的平方,
所以
方差开根号,就是标准差,也就是物理上的误差。
标准正态分布的概率密度在期望值处最大,是0.4;在+1X处,是0.24。标准正态分布函数的累积分布函数可以查表计算。几个关键的值正态分布密度函数是偶函数,所以
观测事例在正负一个标准差,即误差范围内,的概率是;在两个标准差内的概率是95%,在三个标准差内的概率高达99.8%。也就是说,很少有事例会在3倍标准差以外观测到。这比一般的随机分布限制更严格。根据切比雪夫不等式,随机事例出现在3倍以外的概率是小于1/9。
估量事物,我们一般选用误差之外不考虑,因为这时我们已经有84%的把握了。当没有充分100%把握时,冒险次数不能太多。小概率事件发生的充分次数是3/p,所以当有3/0.16=19次时,就必然出现一个误差之外的事例,这会给你带来大麻烦。
当我们估价一件商品时,如果志在必得,那么我们会支付+3X的价格。我们一般把误差估计为商品价值的1/3。就是说,我估计这件宝贝古董大约价值100万,如果对方报价200万以内,我都要拿下。这就是,行事不拘小节。
但对于买卖投资来言,我们要耐心等机会。如果我估计股票价值30元,那么我应该在15元左右买入,然后在50元左右卖出。只要时间足够长,也就是交易事例数足够多,必然会有在-1X以外的事例出现;同理,只要耐心等待,也必然会有+2X以外的事例出现。
长期看,股票市场的年均收益率大约是+10%,但标准差高达30%。所以,对于风险厌恶者来言,他们是不可能买股票的。这与我们的物理测量很不一样。比方说,这根竿子长100厘米,误差是3厘米;我们很信誓旦旦的说,这根竿子就是1米长,因为误差与真值相比仅3%,可忽略不计。而股票就不行了,误差是真值的3倍!
不过根据大数定律,误差不论多大,只要方差有限,那么最后的累加结果就是期望值之和,与误差无关。就是说,长远看,你持有股票10年,就有1.1^10=2.6倍总收益。而如果只是银行存款年2%利息,10年后才是1.02^10=1.22倍,比股票差远了。
所以,表面看、短期看,股票有亏损的风险;但长期来看,只要你大智若愚的持有股票资产,一定会远远超过银行定期存款的收益。