案例:拟根据库存占用资金情况(X1)、广告投入的费用(X2)、员工薪酬(X3)找到销售额(Y)与这3 个变量之间的关系。
主要步骤代码:
> library(MASS)
> fit1 <- lm(Y~ X1 + X2 + X3)
> fit2 <- lm(Y ~ 1)
> stepAIC(fit2,direction="both",scope=list(upper=fit1,lower=fit2))
得到结果:
Start: AIC=220.24
Y ~ 1
Df Sum of Sq RSS AIC
+ X1 1 2955167 363111 182.42
+ X2 1 2778824 539453 189.54
+ X3 1 2354756 963521 199.98
<none> 3318277 220.24
Step: AIC=182.42
Y ~ X1
Df Sum of Sq RSS AIC
+ X2 1 221519 141591 167.47
<none> 363111 182.42
+ X3 1 26278 336833 183.06
- X1 1 2955167 3318277 220.24
Step: AIC=167.47
Y ~ X1 + X2
Df Sum of Sq RSS AIC
<none> 141591 167.47
+ X3 1 500 141092 169.40
- X2 1 221519 363111 182.42
- X1 1 397862 539453 189.54
Call:
lm(formula = Y ~ X1 + X2)
Coefficients:
(Intercept) X1 X2
86.953 7.109 13.684
问题1:标红的+,-是什么意思,是指模型是否纳入该变量吗?
问题2:空模型的AIC=220.24,第二个step: AIC=182.42,老师讲的是该步剔除变量X1,AIC下降了表示X1有意义,第三个Step: AIC=167.47,同时剔除X1和X2,AIC下降了,表示X1和X2均有意义,那么X3该如何判断呢?