这个“小二”一点都不“二”
对于“二乘”的概念,其实最早是基于误差研究展开的。关于最小二乘法的记录最早出现在勒让德1805年发表的一本著作《计算彗星轨道的新方法》里,但他只提出了一个大概的思路:让误差平方和达到最小,在各方程的误差之间建立一个平衡,从而防止某一极端误差取得支配地位,这有助于揭示系统更接近真实的状态。勒让德使用的最小二乘法理论思想固然好,但在实际计算时略有不妥之处,经过一番修正后,再来看看现今的最小二乘法到底是如何计算和使用的。
我们所说的最小二乘法是通过将误差平方和最小化,以此来寻找与现有数据匹配最佳的函数。什么是误差平方和最小化呢?
所谓误差,是指通过得到的数据构建了模型并且拟合出了新的数据,不过这些拟合数据是“计算”出来的,它们与实际数据之间存在一定的偏差,这些偏差就可以理解为误差。而我们要做的就是力求将这些拟合值与实际值之间误差的平方和最小化,这样就能找到一个理想的模型。
下面通过一个简单的例子来一窥“最小二乘法”的真颜。前面我们说过身高和体重之间是有相关关系的,不妨用这两个变量来构建一个一元的线性模型。身高作为自变量x,体重作为因变量y,则可以用一个表达式y=ax+c+ei来刻画它们之间的关系(这里的ei就是随机误差项)。
模型的框架已经搭好,接下来要解决的问题就是怎么计算系数a和常数c。“小二”是这么说的:不管你用什么方法求a和c,只能构建一条直线无限逼近你的数据,不可能完全连接所有的观测值。虽然穿过这些观测值的直线有无数条,但我们要找的就是直线拟合值与实际观测值误差最小的那条,也可以理解为是误差平方和最小的那条,用数学公式来表达就是: min(Σei2)=minΣ(y-y')2。
不过有的读者可能会问,怎么证明这条直线就是最贴合的那条?
高斯给出了肯定的答案,其判断标准就是著名的“高斯-马尔科夫定理”。该定理的描述如下:在给定的假定条件下,最小二乘估计量是具有最小方差的线性无偏估计量。也就是说,如果我们所要建立的线性模型的经典假设成立,则没必要再去寻找其他的无偏估计量,没有一个比最小二乘估计量更好了。即便有这么一个估计量,它的方差也最多和最小二乘估计量一样小。这样就保证了采用最小二乘法计算得出的参数,并以之构建的模型是这批数据中最优的模型。
那么问题又来了:什么是无偏估计量?
无偏估计量等于被估计的量的统计估计量。举个例子:a'是a的一个估计量,如果E(a')=a ,那么a'就是一个无偏估计量。
还有一个问题:定理中提到了“在给定的假定条件下”这句话,都有哪些假定条件呢?高斯-马尔科夫定理给出的假定条件有如下几条:
(1)要求所有参数均为常数,这样就保证了模型为线性模型。
(2)如果有n个调查样本,那么这n个样本必须是从总体中随机抽取的。
(3)在样本(总体)中,没有解释变量是常数;而且解释变量之间不能存在完全共线性,否则该方程将会无解。
(4)总体方程的误差项均值为0,并且误差项均值不受解释变量的影响。
(5)误差项的方差不受解释变量影响且为一个固定值(同方差性)。
只要符合这5个假定条件,即可放心地使用最小二乘法来估计参数。
最后依旧打个小广告:
附上购买链接: 京东购买请点击
当当购买请点击
亚马逊购买请点击