逐步方法(stepwise method)是早期人们在线性模型中进行变量选择的一个经常使用的方法,尽管它并不对应于模型选择的任何一个特定准则,譬如 AIC, BIC, Cp 等。逐步方法分为三种:1. 向前选择(Forward selection);2. 向后消去(Backward elimination); 3. 逐步回归(Stepwise regression)。
假定数据已经标准化,即自变量均值为0,长度为1 。
1. 向前选择从零模型(即只含常数项的模型)出发,每一步向模型中增加一个变量。其实施过程如下:
首先选取一个自变量,它与响应变量的样本相关系数的绝对值最大。其次,在模型中增加一个变量,使得增加的自变量具有最大的 F 统计量值。依次下去,直到某一步,若尚未在模型中的每一个自变量对应的F 统计量值都小于某一个预先给定的值,譬如记为a,则停止变量选择过程。
2. 向后法和向前法实施过程正好相反。它是从全模型(即包含所有自变量的模型)出发,每一步从模型中消去一个变量。消去的准则:选择所有在当前模型中的变量对应的F统计量最小的那个。停止准则是:若在某一步,在当前模型中的每一个自变量对应的F统计量值都大于某个预先给定的临界值,譬如记为b,则停止消去过程。
3. 逐步回归是上述两种方法的结合。
假设利用向前法已经选择了两个变量进入当前模型。下一步不是继续使用向前法选择尚未在模型中的变量,而是对当前模型中的变量做检验,看看当前模型中的每一个自变量是否显著(检验的办法和向后法完全一样),不显著的变量从模型中消去。(这样做的原因是,向前法的第二步选进模型的变量可能使第一步选入模型的变量变得不再显著)。然后对经过检验处理的模型使用向前法选择尚未在模型中的变量,然后再用向后法对当前模型做检验...依次下去。停止准则是:若在某一步,当前模型中的每一个变量都是显著的(即当前模型中的每一个变量对应的F统计量值都大于b),而尚未在模型中的每一个变量都是不显著的(即尚未在模型中的每一个变量对应的F统计量值都小于a)。
这是个人的一点理解,不能保证完全正确,希望对你有一点点帮助。想深入理解,需要看书。基本上,任一本回归的书都会介绍逐步方法。
[此贴子已经被作者于2009-4-14 16:49:55编辑过]