普通最小二乘法OLS法是最常用的回归模型估计方法,但其使用前提之一是随机误差服从正态分布(即高斯分布)。但是,现实是复杂的,几乎不可能完全符合假设。那么,一个好的估计量应该对稍微偏离假设的情况有一定的免疫力。遗憾的是,OLS不具备这一特点。比如,当随机误差是非正态分布—尤其是长尾分布时,OLS估计量会对哪怕少数几个离群点(即异常数据)极度地敏感。也就是说少数几个离群点就会对拟合结果产生破坏性的影响,使OLS估计量成为很差的估计量。事实上,许多学者指出,长尾分布的随机误差比正态分布的随机误差更为常见。这种情况下,必须放弃OLS,寻求其它有效的估计方法。稳健回归正是对这个问题进行补救措施。所谓稳健,就是指能够抵御异常数据对回归分析的不良影响。如果能够抵御,我们就可以说这种估计方法是稳健的。反之,如果不能抵御异常数据对回归分析的破坏,我们就可以说这种估计方法是不稳健。因为在回归分析中,异常数据主要表现的离群点。所以,简言之,稳健回归就是指能够检测离群点、并且在离群点存在的情况下能够提供可靠估计的一种回归方法。
本文件中本人原创,内容包括离群点的识别(帽子值法、学生化残差法、标准化残差的QQ图(Quantile–quantile plots)法、Cook距离(Cook’s distance)法),稳健回归估计方法(最小截尾二乘法(LTS)、M估计量,Huber回归),有完整的R代码的实战案例。
内容结构:
共24页,内容完整、图文并茂、可以直接复制到软件上操作。