探索异常观测值:Cook's Distance(cook距离) 、Studentized Residual(学生化残差)、 Centered Leverage Value(杠杆值)。
l Cook距离:适用于自变量较多时,提供单个观测值对回归面总体影响的信息(在探讨多元回归时尤其适用)。
e表示标准化残差, k表示自变量数,n样本数。
如果
l 绘制:Cook's 距离与id间的散点图。
|
注:该图显示不同观测值对对整体回归的影响,可见77、111、23、61四个观测对整体模型影响较大。
l 杠杆值与学生化残差
杠杆值:
帽子值关心的是具体值偏离中心的程度。参考界限大于 h平均数两倍。
学生化残差:
将该观测值从残差标准差中删除。参考界限[-2 2].
绘制常用侦察图:
|
注:该图显示不同观测值(例如77),异常。
所以综合Cook's 距离、杠杆值与学生化残差的信息可以看出,观测值77号一定是异常观测值,有必要加以重视。