当线性回归分析的几个重要假定被违反时,由此衍生的模型探析:
a、线性:因变量与自变量间的线性关系。
线性关系自然是线性模型的基础,可以通过图形简单的侦察它们间的关系,如果违反,需选择稳健的方法替代之,当然有时稳健的方法并不稳健时,需要使用非线性模型,这类模型可以通过函数,几乎可以对任意形状的数据加以拟合,而且其精度之高令人赞叹,像神经网络,支持向量机等模型,不过美中不足的是在预测方面有很大不足。
b、正态性:因变量的正态性。
通过前期的预分析侦察数据分布情况(K-S检验),也可以侦察模型残差来综合判断优劣(正负3倍sigma、趋势),如果条件不满足,像对数模型、倒数模型倒是不错的选择(寻求变换),当然这里稳健一族的方法也可以使用,尤其是分位数回归,在针对因变量的诸多缺陷均有相应的设置用于处理,具有优良的性质。非参回归的一些方法,像加权局部回归也是较为常用的用于处理的模型。
c、独立同分布:残差间相互独立,且遵循同一分布。
残差间独立性,可以使用DW检验,如果高阶自相关需使用H检验(还是tobin的)去侦察。如果本期残差被上一期或更多前期所解释,则需要使用自回归模型或分布滞后模型去拟合,也许可能的话,回归模型与ARMA的组合模型也许也能派上用场。当然这里涉及的更多是计量模型的使用。
残差与自变量是否相关则产生内生性问题。
要求残差遵循同一分布,如果回归分析出现异方差,需要使用诸如稳健回归、加权回归或变量转换(Box-cox)的方法。
d、正交假定:残差项与自变量不相关,其期望为0.
残差与自变量存在相关,则产生内生性问题,解决的办法可以是工具变量法和两级最小二乘法,当然这要视不同的模型而定,例如联立方程中也许有时会使用三级最小二乘法、约束等方法处理,结构方程中的残差间的限定等,不过后面的很多方法本质上也应该是工具变量法,所以这类问题大体都是在找合适的替代工具。
数据统计分析师认证培训https://bbs.pinggu.org/thread-1562552-1-1.html