5.4 残差分析 1.jpg
从上图标准化残差图来看,基本上呈现带状,且在正负2之间对称分布。
5.5 用估计的回归方程1预测2012年伦敦奥运会这九个国家的金牌数量
因此根据估计的回归方程:
金牌 = - 33.4 + 1.56 届数 + 21.5 美国 + 15.0 俄罗斯 + 4.96 德国+ 12.4 是否东道主 + 0.000150 总人口数 (万人),代入2012年各个国家自变量的实际数据,
可以计算2012年伦敦奥运会这九个国家的金牌数量:(忽略边际误差的影响,直接用估计值作为预测值)
国家 金牌 调整后的金牌数量
美国 39.6 40
中国 33.6 34
俄罗斯 30.5 31
英国 26.7 27
德国 19.6 20
日本 15.3 15
法国 14.4 14
韩国 14.2 14
澳大利亚 13.7 13
5.6 用Minitab最佳子集回归来选择自变量建立回归方程
用Minitab最佳子集回归来选择自变量从而建立回归方程。
最佳子集回归: 金牌 与 中国, 美国, 俄罗斯, 英国, 德国, 澳大利亚, 韩国, 日本, 是否东道主, 总人口数 (万人)
响应为 金牌
总
人
口
数
是
澳 否 (
俄 大 东 万
R-Sq(调 Mallows 中 美 罗 英 德 利 韩 日 道 人
变量 R-Sq 整) Cp S 国 国 斯 国 国 亚 国 本 主 )
1 36.0 34.1 122.1 9.5878 X
1 29.1 27.0 138.6 10.087 X
2 71.8 70.1 37.7 6.4527 X X
2 62.2 59.9 61.1 7.4815 X X
3 79.6 77.7 21.1 5.5807 X X X
3 78.9 76.9 22.9 5.6796 X X X
4 85.2 83.3 9.5 4.8217 X X X X
4 82.5 80.2 16.2 5.2547 X X X X
5 86.6 84.4 8.2 4.6685 X X X X X
5 86.5 84.2 8.5 4.6910 X X X X X
6 89.1 86.9 4.2 4.2803 X X X X X X
6 87.7 85.2 7.5 4.5406 X X X X X X
7 89.4 86.8 5.4 4.2901 X X X X X X X
7 89.2 86.5 5.9 4.3343 X X X X X X X
8 89.6 86.5 7.1 4.3397 X X X X X X X X
8 89.5 86.4 7.2 4.3523 X X X X X X X X
9 89.6 86.0 9.0 4.4175 X X X X X X X X X
9 89.6 86.0 9.0 4.4186 X X X X X X X X X
10 89.6 85.5 11.0 4.5035 X X X X X X X X X X
我们可以看到红色标注的几个推荐拟合得比较好,不妨选择变量“中国”,“美国”, “澳大利亚”, “日本”,“是否东道主”和“总人口数(万人)”做为自变量。
6 89.1 86.9 4.2 4.2803 X X X X X X
5.7 用Minitab建立回归方程2(金牌的数量受哪些自变量的影响)
选择Minitab最佳回归推荐的组合之一(“中国”,“美国”, “澳大利亚”, “日本”,“是否东道主”和“总人口数(万人)”)来建立新的回归方程。
回归分析:金牌 与 中国, 美国, 澳大利亚, 日本, 是否东道主, 总人口数 (万人)
回归方程为
金牌 = 0.93 - 187 中国 - 13.2 美国 + 7.29 澳大利亚 - 11.3 日本 + 9.83 是否东道主
+ 0.00169 总人口数 (万人)
自变量 系数 系数标准误 T P
常量 0.927 1.993 0.47 0.645
中国 -187.45 25.70 -7.29 0.000
美国 -13.160 4.962 -2.65 0.013
澳大利亚 7.288 2.818 2.59 0.015
日本 -11.347 2.538 -4.47 0.000
是否东道主 9.835 2.865 3.43 0.002
总人口数 (万人) 0.0016863 0.0002141 7.88 0.000
S = 4.28035 R-Sq = 89.1% R-Sq(调整) = 86.9%
方差分析
来源 自由度 SS MS F P
回归 6 4349.43 724.91 39.57 0.000
残差误差 29 531.32 18.32
合计 35 4880.75
来源 自由度 Seq SS
中国 1 760.50
美国 1 2088.64
澳大利亚 1 0.02
日本 1 45.63
是否东道主 1 318.03
总人口数 (万人) 1 1136.60
异常观测值
拟合值 标准化
观测值 中国 金牌 拟合值 标准误 残差 残差
13 0.00 1.000 10.843 1.075 -9.843 -2.38R
29 0.00 3.000 10.787 2.140 -7.787 -2.10R
R 表示此观测值含有大的标准化残差
总结:从以上估计的回归方程可以看出,F检验统计量的p-value接近于0,金牌数量与这6个自变量的关系在总体上是显著的。对于单个的变量的t检验统计量在 =0.05显著水平下,只有常量的t检验统计量的p-value=0.645高不是太好。从拟合效果来看,R-Sq = 89.1% R-Sq(调整) = 86.9%,还是不错的。
但仍有两个异常的观测值,因为标准化残差的绝对值大于2,来自1996年英国和日本的数据。
1996年 26 英国
1996年 26 日本
5.8 残差分析 2.jpg
从上图标准化残差图来看,基本上呈现带状,且在正负2之间对称分布。
|