楼主: lnlhckao123
11010 20

[问答] 200论坛币请问logistic回归各种变量选择方法的程序 [推广有奖]

11
lchw001 发表于 2013-6-13 00:38:55
lnlhckao123 发表于 2013-6-9 02:54
谢谢大家!但是同一数据用不同方法会选出不同变量时,该怎么办?望高手指点!
这个很正常。选你想要的模型。或者是在做数据分析之前就确定好用那种方法。一般来说用stepwise多一些。
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
lnlhckao123 + 4 + 4 + 4 热心帮助其他会员

总评分: 学术水平 + 4  热心指数 + 4  信用等级 + 4   查看全部评分

12
lyd62000000 发表于 2013-6-13 21:57:22
      逻辑回归(logistic)是多元统计分析的一种方法,它是在应变量Y不是定量变量的情况下使用。根据Y的情况可以分为二分类logistic回归、多分类的logistic回归。当使用应变量Y为二分类变量时,我们算出的logitP值是Y=1时的概率,也就是发生某种疾病的概率继而得出流行病学中的比值比(OR值),而当该事件发生概率很小时,比值比也就近似为危险度(RR值)。
      与多元回归一样,逻辑回归也存在变量选择的问题。有两类大方法:1、全局择优;2、逐步选择法。楼主所问的均为逐步选择法中的三种方法,即前进法、后退法、逐步回归法。在日常科研中,基本使用逐步回归法。逐步回归法在理论上适用于各种情况的回归,不限于变量个数,其实质也是一种前进法。
      SAS中对于这三种方法有一下程序:
前进法
proc logistic decending;
  model y=x1-x6/selection=forward;
run;
后退法
proc logistic decending;
  model y=x1-x6/selection=backward;
run;
逐步法
proc logistic decending;
  model y=x1-x6/selection=stepwise;
run;
默认sle=0.05 sls=0.05,根据实际情况选择,经常性sle小于等于sls,一般为sle=0.1,sls=0.15。
     程序中logistic为逻辑回归模块, decending的含义是让机器码降序排列,继而可以直接得到相应的LogitP值,model为模型参数,selection=后可控制变量筛选方法。
      关于多元回归(逻辑回归也属于此类)变量筛选设计到回归的相关诊断,如多重共线性、异方差、自相关等。相应的有一些指标可以判别,进一步帮助我们选择相关研究变量。
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
lnlhckao123 + 5 + 3 + 3 热心帮助其他会员

总评分: 学术水平 + 5  热心指数 + 3  信用等级 + 3   查看全部评分

13
lyd62000000 发表于 2013-6-13 22:00:12
补充一点,sas中sle可以与sls相等,但理论上不应相等且有sle小于等于sls,如在SPSS中sle必须与sls不相等。

14
zhy12212728 发表于 2013-6-15 00:19:49
不同的自变量对应不同的模型,模型的好坏可以根据logistic步产生的统计量如AIC进行判断,也有一些图形如ROC图,更关键的是要有现实依据支撑。

15
lnlhckao123 发表于 2013-6-16 23:59:16
谢谢lyd62000000!我想请大家看我的例子,用不同方法得出不同结论(不同方法会选出不同变量),这时我应该怎么做,请高手赐教!

data aaa;                                 
input  y  x1  x2  x3  x4  x5  x6  x7;
cards;
1.000        1.00        1.00        1.000        2.000        0.125        0.770        1.000
1.000        1.00        1.00        4.000        2.000        0.137        1.000        2.000
1.000        1.00        1.00        4.000        2.000        0.137        1.000        2.000
0.000        1.00        2.00        1.000        1.000        0.253        0.940        1.000
0.000        1.00        2.00        1.000        1.000        0.253        0.940        1.000
1.000        1.00        2.00        4.000        2.000        0.275        0.860        1.000
1.000        1.00        1.00        4.000        4.000        0.549        0.850        2.000
1.000        1.00        1.00        4.000        4.000        0.549        0.850        2.000
1.000        1.00        3.00        4.000        2.000        0.849        0.820        1.000
1.000        2.00        1.00        4.000        4.000        1.011        0.830        2.000
1.000        2.00        1.00        4.000        4.000        1.011        0.830        2.000
1.000        1.00        3.00        4.000        1.000        1.966        0.850        1.000
1.000        1.00        3.00        4.000        1.000        1.966        0.850        1.000
1.000        1.00        3.00        3.000        2.000        1.966        0.850        1.000
1.000        1.00        3.00        3.000        2.000        1.966        0.850        1.000
1.000        1.00        3.00        4.000        4.000        2.059        1.000        1.000
1.000        2.00        3.00        4.000        2.000        3.014        0.830        3.000
1.000        2.00        3.00        4.000        2.000        3.014        0.830        3.000
1.000        1.00        3.00        4.000        1.000        3.110        1.000        1.000
1.000        1.00        1.00        1.000        2.000        3.220        0.770        1.000
1.000        1.00        3.00        4.000        1.000        4.332        1.000        1.000
1.000        1.00        3.00        4.000        1.000        4.332        1.000        1.000
1.000        1.00        2.00        4.000        2.000        5.021        0.960        2.000
1.000        1.00        2.00        4.000        3.000        6.084        1.000        2.000
1.000        1.00        3.00        4.000        3.000        7.351        0.890        2.000
1.000        1.00        2.00        4.000        2.000        7.360        0.960        2.000
1.000        2.00        2.00        2.000        2.000        7.880        0.820        2.000
0.000        1.00        2.00        1.000        3.000        8.294        0.570        2.000
0.000        1.00        2.00        1.000        3.000        8.294        0.570        2.000
1.000        2.00        3.00        4.000        1.000        9.321        0.350        2.000
1.000        2.00        1.00        3.000        1.000        9.654        0.930        1.000
1.000        2.00        2.00        4.000        2.000        11.813        0.840        1.000
1.000        2.00        2.00        4.000        2.000        11.813        0.840        1.000
1.000        2.00        1.00        3.000        2.000        14.524        0.830        1.000
0.000        3.00        2.00        3.000        3.000        15.015        0.840        3.000
0.000        4.00        2.00        4.000        4.000        15.959        0.880        3.000
0.000        3.00        3.00        4.000        3.000        17.297        0.620        1.000
0.000        3.00        3.00        1.000        4.000        19.103        0.830        1.000
0.000        2.00        1.00        4.000        2.000        24.985        0.690        3.000
1.000        1.00        3.00        4.000        3.000        32.032        0.890        2.000
1.000        4.00        1.00        4.000        1.000        35.000        0.800        1.000
0.000        2.00        3.00        4.000        3.000        65.000        1.000        1.000
0.000        3.00        3.00        4.000        3.000        68.000        0.620        1.000
0.000        3.00        3.00        1.000        4.000        69.000        0.830        1.000
0.000        4.00        3.00        2.000        2.000        82.836        0.570        3.000
0.000        4.00        3.00        2.000        2.000        82.836        0.570        3.000
0.000        3.00        2.00        2.000        2.000        93.510        0.640        1.000
0.000        3.00        3.00        4.000        3.000        96.000        0.880        2.000
0.000        4.00        3.00        1.000        3.000        96.096        0.620        1.000
0.000        4.00        3.00        1.000        3.000        96.096        0.620        1.000
0.000        4.00        1.00        2.000        3.000        116.064        0.590        3.000
0.000        4.00        1.00        2.000        3.000        116.064        0.590        3.000
0.000        4.00        1.00        2.000        3.000        255.025        0.710        2.000
;
run;


proc logistic data=zxq descending;
    model y=x1  x2  x3  x4  x5  x6  x7/selection=stepwise ;
run;

proc logistic data=zxq descending;
    model y=x1  x2  x3  x4  x5  x6  x7/selection=forward ;
run;


proc logistic data=zxq descending;
    model y=x1  x2  x3  x4  x5  x6  x7/selection=backward ;
run;








                                                  The LOGISTIC Procedure                              逐步回归法

                                         Analysis of Maximum Likelihood Estimates

                                                          Standard          Wald
                           Parameter    DF    Estimate       Error    Chi-Square      Pr > ChiSq

                           Intercept     1      0.2356      1.3778        0.0292    0.8642248632
                           x3            1      1.7850      0.6002        8.8431    0.0029419146
                           x5            1     -0.1376      0.0510        7.2658    0.0070281279
                           x7            1     -1.6765      0.8437        3.9489    0.0469011419


                                                   Odds Ratio Estimates

                                                     Point          95% Wald
                                        Effect    Estimate      Confidence Limits

                                        x3           5.959       1.838      19.326
                                        x5           0.871       0.789       0.963
                                        x7           0.187       0.036       0.977


                               Association of Predicted Probabilities and Observed Responses

                                     Percent Concordant     96.6    Somers' D    0.933
                                     Percent Discordant      3.3    Gamma        0.934
                                     Percent Tied            0.1    Tau-a        0.455
                                     Pairs                   672    c            0.967





                                         Analysis of Maximum Likelihood Estimates                              前进法

                                                          Standard          Wald
                           Parameter    DF    Estimate       Error    Chi-Square      Pr > ChiSq

                           Intercept     1     -0.4422      1.2174        0.1319    0.7164526307
                           x1            1     -1.2174      0.7180        2.8752    0.0899553659
                           x3            1      1.6448      0.5692        8.3514    0.0038540044
                           x5            1     -0.0990      0.0553        3.1994    0.0736635117


                                                   Odds Ratio Estimates

                                                     Point          95% Wald
                                        Effect    Estimate      Confidence Limits

                                        x1           0.296       0.072       1.209
                                        x3           5.180       1.698      15.804
                                        x5           0.906       0.813       1.010

                                                         SAS 系统                2013年06月16日 星期日 下午10时33分40秒  18

                                                  The LOGISTIC Procedure

                               Association of Predicted Probabilities and Observed Responses

                                     Percent Concordant     96.6    Somers' D    0.932
                                     Percent Discordant      3.4    Gamma        0.932
                                     Percent Tied            0.0    Tau-a        0.454
                                     Pairs                   672    c            0.966





                                                
                                         Analysis of Maximum Likelihood Estimates          后退法

                                                          Standard          Wald
                           Parameter    DF    Estimate       Error    Chi-Square      Pr > ChiSq

                           Intercept     1      0.2356      1.3778        0.0292    0.8642248632
                           x3            1      1.7850      0.6002        8.8431    0.0029419146
                           x5            1     -0.1376      0.0510        7.2658    0.0070281279
                           x7            1     -1.6765      0.8437        3.9489    0.0469011419


                                                   Odds Ratio Estimates

                                                     Point          95% Wald
                                        Effect    Estimate      Confidence Limits

                                        x3           5.959       1.838      19.326
                                        x5           0.871       0.789       0.963
                                        x7           0.187       0.036       0.977


                               Association of Predicted Probabilities and Observed Responses

                                     Percent Concordant     96.6    Somers' D    0.933
                                     Percent Discordant      3.3    Gamma        0.934
                                     Percent Tied            0.1    Tau-a        0.455
                                     Pairs                   672    c            0.967


即使在人大经济论坛这个网络世界,我仍以真诚为基础与我的好友进行交往!

16
lnlhckao123 发表于 2013-6-17 00:09:32
请问lchw001!请问“这个很正常。选你想要的模型。或者是在做数据分析之前就确定好用那种方法。一般来说用stepwise多一些。”    1.我不知道选我想要的模型时,会不会不合规范。2.如果我在做数据分析之前就确定好用那种方法,可是用其它方法会筛选出其它变量怎么办。可否请lchw001结合我上述的实际例子(15楼)帮我解答一下!谢谢!!
即使在人大经济论坛这个网络世界,我仍以真诚为基础与我的好友进行交往!

17
yongyitian 发表于 2013-6-19 22:53:46
lnlhckao123 发表于 2013-6-16 23:59
谢谢lyd62000000!我想请大家看我的例子,用不同方法得出不同结论(不同方法会选出不同变量),这时我应该怎 ...
当使用不同的方法得到的模型不同时,需要对这些结果模型进行比较,从而确定最佳模型。

从所得结果可以发现,方法1(逐步回归法)和方法3(后退法)的结果相同,而方法2(前进法)得

到的结果却不同. 但两种结果都包含变量 x3, x5.

                        逐步回归法, 后退法           前进法     
选出的变量            x3,x5,x7                   x1, x3, x5

这时你可以确定的是,结果模型中至少应包括 x3, x5. 但是否应包括 x1 或 x7,则需要进一步检验.

最简单的方法是将x1, x7 和 x3, x5 一起放如模型中运行,然后查看得到的 p-value 的significant level.

proc logistic data=aaa descending;
    model y = x1 x3 x5 x7;
run;

从结果中,可以看到
p(x1) = 0.1724151518   is not significant at 0.05 and 0.1 level.
p(x7) = 0.0781080904   is       significant at               0.1 level.

这时你可以确定结果模型中不包括 x1. 如果你想在模型中保留x7, 则应对significant level进行说明.

还有,重新运行15楼的code,从结果中就能发现为什么不同的方法得到的结果不同。 因为使用前进法时 x7 根本没有进入模型.  而 x7 没有进入模型的原因是由选入标准(sle)的值决定的. 调整选入标准(sle) 及剔除标准(sls)的值可能得到不同的结果(没试过).

最后, 在后面stepwise, forward, backward 后面加上 details, 运行后可以从结果中查看选如和剔除变量的详细过程。

18
hamsik11 发表于 2013-6-20 15:05:54
lnlhckao123 发表于 2013-6-16 23:59
谢谢lyd62000000!我想请大家看我的例子,用不同方法得出不同结论(不同方法会选出不同变量),这时我应该怎 ...
这些方法的依据不一样 所以会有不一样的结果。你可以都试试,然后按照AIC或者ROC这些指标来选取最优的

19
李霞-JY 在职认证  发表于 2013-6-23 14:51:36
lnlhckao123 发表于 2013-6-9 02:54
谢谢大家!但是同一数据用不同方法会选出不同变量时,该怎么办?望高手指点!
前进法是一个一个地选入变量,一旦选入就不再剔除;后退法是将变量一个一个地剔除,一旦踢出模型便不再引入。所以一般情况下我们用的是逐步回归法,这样变量就可以不断地被引入和剔除,直到模型显著为止。但是对于高维数据(变量很多的情况),这3中方法都不适合,就应该采用Lasso相关的回归方法。
好好学习,天天向上

20
xiudf 在职认证  发表于 2014-1-14 17:31:24
要是自变量是多分类的,Logistic怎么实现逐步回归呢?Code还是一样?

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-29 22:24