楼主: 圆纸0
1572 9

[回归分析求助] logistic回归问题 [推广有奖]

  • 1关注
  • 0粉丝

本科生

68%

还不是VIP/贵宾

-

威望
0
论坛币
3 个
通用积分
0.0009
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
590 点
帖子
37
精华
0
在线时间
166 小时
注册时间
2020-4-1
最后登录
2022-2-23

楼主
圆纸0 发表于 2021-7-25 15:38:11 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我研究的是人口流出的影响因素,流出=1,未流出=0,影响因素二产/三产、工业总产值/GDP 、外商直接投资 /GDP,人均GDP对数、在岗职工平均工资对数、失业率、固定资产投资/GDP、 户籍人口对数及婚姻、受教育程度、健康等个人特征。
城市特征变量spearman相关分析结果,工业总产值/GDP与二产/三产,人均GDP与平均工资高度相关,所以我只选二产/三产和工资进入回归,标准误、p值等都是空的,为什么呀??试来试去只有二产/三产、工业总产值/GDP 、外商直接投资 /GDP,固定资产投资/GDP、 户籍人口对数几个变量和个人特征可以成功,结果大部分都是显著的,但是做hosmer检验时, Prob > chi2 = 0.0000,是哪里出问题了呢,应该不存在多重共线性问题了吧?搞不明白,求大佬解惑!!!


             |  indstru      fdi      ind register     wage     pgdp      syl       gd
-------------+------------------------------------------------------------------------
     indstru |   1.0000
         fdi |  -0.5600   1.0000
         ind |   0.8577  -0.2752   1.0000
    register |   0.2049  -0.4831   0.0191   1.0000
        wage |   0.2146   0.1230   0.4312  -0.4909   1.0000
        pgdp |   0.2571   0.1077   0.5200  -0.4067   0.8956   1.0000
         syl |  -0.3723   0.1440  -0.3252  -0.0074  -0.5411  -0.4635   1.0000
          gd |   0.4761   0.2405   0.4504  -0.4263   0.1968   0.0561  -0.2212   1.0000
解释变量借鉴了别人的核心文献,为什么我做不出来呢,难道是我数据输入有问题?下面是部分数据,求大佬帮看一下,感谢!!!比如这部分个体流入到北京,属于流出,为1,流入的城市特征对应都是北京的经济特征,下面流入到天津,对应的都是天津的经济特征,不知道是否有问题?
微信图片_20210725153546.png



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:logistic回归问题 logistic回归 logistic logisti ogistic

沙发
wdlbcj 学生认证  发表于 2021-7-25 17:27:44
1. 请贴出stata报错信息以及回归结果,而不是仅仅相关系数表
2. 个人感觉考虑人口流动时,可以考虑两个城市之间的差异,而不是单纯的流入城市的城市特征

藤椅
圆纸0 发表于 2021-7-25 19:57:53
wdlbcj 发表于 2021-7-25 17:27
1. 请贴出stata报错信息以及回归结果,而不是仅仅相关系数表
2. 个人感觉考虑人口流动时,可以考虑两个城 ...
------------------------------------------------------------------------------
           y | Odds Ratio   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
     indstru |   19.35369    9.03727     6.35   0.000     7.749834    48.33205
         fdi |   1.4e+148   1.9e+149    24.99   0.000     3.3e+136    5.7e+159
         ind |   14.87624    2.43137    16.52   0.000     10.79874    20.49337
    register |   .4766102   .0303457   -11.64   0.000     .4206951    .5399572
          gd |   12.00682   4.773679     6.25   0.000     5.508165    26.17274
     marrige |   1.035712    .083057     0.44   0.662     .8850718    1.211992
      gender |   1.214095   .0748808     3.15   0.002     1.075855    1.370097
          hk |    .930792   .0623874    -1.07   0.285     .8162063    1.061464
         edu |   1.115824   .0128394     9.52   0.000     1.090941    1.141274
          nl |   1.012828   .0038724     3.33   0.001     1.005267    1.020446
       child |   1.829297   .1601638     6.90   0.000     1.540839    2.171756
          jk |   2.106903   .6718042     2.34   0.019     1.127799    3.936022
       _cons |   .0000119   8.56e-06   -15.72   0.000     2.89e-06    .0000488
------------------------------------------------------------------------------
Note: _cons estimates baseline odds.
Logistic model for y, goodness-of-fit test

       number of observations =     10355
number of covariate patterns =      5270
           Pearson chi2(5257) =     44760.28
                  Prob > chi2 =         0.0000

您好,感谢您回复指导!这是结果,hosmer检验没过,您说的城市间差异,我的解释变量的流出东北为1,未流出为0,未流出的人即对应各自所在东北三省的经济特征,数据里应该包括了城市差异吧,或者我的数据输入有问题?

板凳
圆纸0 发表于 2021-7-25 19:59:25
wdlbcj 发表于 2021-7-25 17:27
1. 请贴出stata报错信息以及回归结果,而不是仅仅相关系数表
2. 个人感觉考虑人口流动时,可以考虑两个城 ...
抱歉,回复有点晚,需要审核

报纸
圆纸0 发表于 2021-7-25 20:03:24
wdlbcj 发表于 2021-7-25 17:27
1. 请贴出stata报错信息以及回归结果,而不是仅仅相关系数表
2. 个人感觉考虑人口流动时,可以考虑两个城 ...
logistic y indstru fdi wage syl register gd marrige gender hk edu nl child jk

Logistic regression                       Number of obs     =     10,355
                                                LR chi2(-1)       =   12456.30
                                                Prob > chi2       =          .
Log likelihood =          0              Pseudo R2         =     1.0000

------------------------------------------------------------------------------
           y | Odds Ratio   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
     indstru |   1.87e-12          .        .       .            .           .
         fdi |          .          .        .       .            .           .
        wage |          .          .        .       .            .           .
         syl |   1.94e-29          .        .       .            .           .
    register |   2.94e+13          .        .       .            .           .
          gd |   1.7e+133          .        .       .            .           .
     marrige |   .7187995          .        .       .            .           .
      gender |   .9121089          .        .       .            .           .
          hk |   1.123546          .        .       .            .           .
         edu |   .9909775          .        .       .            .           .
          nl |   1.011755          .        .       .            .           .
       child |   .8996043          .        .       .            .           .
          jk |   1.274078          .        .       .            .           .
       _cons |          0          .        .       .            .           .
------------------------------------------------------------------------------
Note: _cons estimates baseline odds.
Note: 7360 failures and 2995 successes completely determined.


如果是加入工资与失业率就这样了,加入其中任何一个回归就失败,不收敛

地板
圆纸0 发表于 2021-7-25 20:07:17
wdlbcj 发表于 2021-7-25 17:27
1. 请贴出stata报错信息以及回归结果,而不是仅仅相关系数表
2. 个人感觉考虑人口流动时,可以考虑两个城 ...
logistic y indstru fdi ind register gd marrige gender hk edu nl child jk

Logistic regression                             Number of obs     =     10,355
                                                LR chi2(12)       =    5538.24
                                                Prob > chi2       =     0.0000
Log likelihood = -3459.0276                     Pseudo R2         =     0.4446

------------------------------------------------------------------------------
           y | Odds Ratio   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
     indstru |   19.35369    9.03727     6.35   0.000     7.749834    48.33205
         fdi |   1.4e+148   1.9e+149    24.99   0.000     3.3e+136    5.7e+159
         ind |   14.87624    2.43137    16.52   0.000     10.79874    20.49337
    register |   .4766102   .0303457   -11.64   0.000     .4206951    .5399572
          gd |   12.00682   4.773679     6.25   0.000     5.508165    26.17274
     marrige |   1.035712    .083057     0.44   0.662     .8850718    1.211992
      gender |   1.214095   .0748808     3.15   0.002     1.075855    1.370097
          hk |    .930792   .0623874    -1.07   0.285     .8162063    1.061464
         edu |   1.115824   .0128394     9.52   0.000     1.090941    1.141274
          nl |   1.012828   .0038724     3.33   0.001     1.005267    1.020446
       child |   1.829297   .1601638     6.90   0.000     1.540839    2.171756
          jk |   2.106903   .6718042     2.34   0.019     1.127799    3.936022
       _cons |   .0000119   8.56e-06   -15.72   0.000     2.89e-06    .0000488
------------------------------------------------------------------------------
Note: _cons estimates baseline odds.
estat gof

Logistic model for y, goodness-of-fit test

       number of observations =     10355
number of covariate patterns =      5270
           Pearson chi2(5257) =     44760.28
                  Prob > chi2 =         0.0000
这是剔除工资和失业率的结果,但是我觉得不能剔除这两个。城市间的差异的话,我数据里未流出东北为0.对应的城市特征就是未流出这些人各自所在东北三省的城市经济特征,不知道这样输入是否有问题?

7
wdlbcj 学生认证  发表于 2021-7-26 10:48:13
圆纸0 发表于 2021-7-25 20:03
logistic y indstru fdi wage syl register gd marrige gender hk edu nl child jk

Logistic r ...
注意这里的NOTE 出错的原因可能是在于当加入工资与失业率之后,就能对Y进行completely 的预测了。你可以单独看一下 Y  工资 和失业率这个几个数据,是不是存在当工资大于某一个值的时候Y完全为1 或者是当失业率低于某一个值的时候Y完全为1。应该是有这样情况出现的,所以会报错

8
wdlbcj 学生认证  发表于 2021-7-26 10:50:10
圆纸0 发表于 2021-7-25 20:07
logistic y indstru fdi ind register gd marrige gender hk edu nl child jk

Logistic regression   ...
你好,之前没有说清楚,我这里想说的城市差异是流入地与流出地的相对差异。比如A向B流动,就可以就算一下这两个城市之间的差异,人均工资差多少,城市建设差多少;当B向C流动时,也可以这么计算。感觉这样控制城市差异更有效一些

9
wdlbcj 学生认证  发表于 2021-7-26 10:50:52
圆纸0 发表于 2021-7-25 20:03
logistic y indstru fdi wage syl register gd marrige gender hk edu nl child jk

Logistic r ...
你好,下次截图就可以,看的更清楚,不需要复制这部分结果。因为容易错位,看不清楚

10
圆纸0 发表于 2021-7-26 16:25:04
wdlbcj 发表于 2021-7-26 10:50
你好,之前没有说清楚,我这里想说的城市差异是流入地与流出地的相对差异。比如A向B流动,就可以就算一下 ...
非常感谢,我试试

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-13 11:05