1.残差δ通俗的说就是拟合值与观测值之差,我们的马尔可夫假设规定残差δ服从N(0,σ),为了便于观察和控制残差δ的大小,我们对δ进行标准化——得到δ/σ(标准化残差)服从N(0,1)也就是标准正态分布,这时候利用3σ准则我们就可以知道,若模型合格,那么会有大概68.26%的标准化残差落在-1到1这个区间上,大概95.44%的标准化残差落在-2到2这个区间上,99.74%的标准化残差落在-3到3这个区间上。落在(-2,2)与(-3,3)之间的点称为可疑值,(-3,3)之外的点称为异常值。
2.残差图能够用来判断数据的是否异常,若数据都在(-2,2)的区间内,表明数据具有正态性和方差齐性;若数据点超出(-2,2)的区间,表明该数据为异常点,不能加入到回归直线拟合当中,也无方差齐性和正态性。
3.一般统计教材关于线性拟合完美残差图的描述大概是这样子的:
残差均值为0;
各残差点随机、均匀分布与-2到2之间;
残差点的分布看不出任何规律;
残差不应该包含任何可预测的信息;
4.可看到上图呈现下降的趋势规律,并不是随机分布,这和前面讲过的“完美态”有偏差,所以简单粗暴认为本次线性回归拟合并未完全满足使用条件,可能存在异方差和其他拟合不足的问题。
|