lnlhckao123 发表于 2013-6-16 23:59 
谢谢lyd62000000!我想请大家看我的例子,用不同方法得出不同结论(不同方法会选出不同变量),这时我应该怎 ...
当使用不同的方法得到的模型不同时,需要对这些结果模型进行比较,从而确定最佳模型。
从所得结果可以发现,方法1(逐步回归法)和方法3(后退法)的结果相同,而方法2(前进法)得
到的结果却不同. 但两种结果都包含变量 x3, x5.
逐步回归法, 后退法 前进法
选出的变量 x3,x5,x7 x1, x3, x5
这时你可以确定的是,结果模型中至少应包括 x3, x5. 但是否应包括 x1 或 x7,则需要进一步检验.
最简单的方法是将x1, x7 和 x3, x5 一起放如模型中运行,然后查看得到的 p-value 的significant level.
proc logistic data=aaa descending;
model y = x1 x3 x5 x7;
run;
从结果中,可以看到
p(x1) = 0.1724151518 is not significant at 0.05 and 0.1 level.
p(x7) = 0.0781080904 is significant at 0.1 level.
这时你可以确定结果模型中不包括 x1. 如果你想在模型中保留x7, 则应对significant level进行说明.
还有,重新运行15楼的code,从结果中就能发现为什么不同的方法得到的结果不同。 因为使用前进法时 x7 根本没有进入模型. 而 x7 没有进入模型的原因是由选入标准(sle)的值决定的. 调整选入标准(sle) 及剔除标准(sls)的值可能得到不同的结果(没试过).
最后, 在后面stepwise, forward, backward 后面加上 details, 运行后可以从结果中查看选如和剔除变量的详细过程。