楼主: 薄言往诉
27214 25

[回归分析求助] 为什么在logistic回归中加入固定效应后,样本量会减少? [推广有奖]

  • 0关注
  • 1粉丝

博士生

22%

还不是VIP/贵宾

-

威望
0
论坛币
86 个
通用积分
48.7543
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
1428 点
帖子
71
精华
0
在线时间
384 小时
注册时间
2014-5-6
最后登录
2023-4-28

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我用STATA跑了一个logistic回归,因变量为CEO的晋升情况,自变量为CEO的个人特征和公司特征。如果不加固定效应直接回归的话,样本量大概在5200左右(已经删除了所有存在缺失值的样本)。代码是:logistic Y X1 X2 X3 X4 X5 X6

但是加入年份和行业的固定效应后,样本量就减少为4600左右,代码是:


logisticY X1 X2 X3 X4 X5 X6 i.year i.ind

而如果在此基础上再加入省份的固定效应,样本量就下降为了2900个。代码:
logisticY X1 X2 X3 X4 X5 X6 i.year i.ind i.area

但是year, ind, area这三个变量都是没有缺失值的,所以不太清楚为什么会出现样本缺失的情况。
求教各位!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:logistic回归 logistic ogistic logisti logist

回帖推荐

震震果实 发表于3楼  查看完整内容

加入虚拟变量后,便是对其进行分类,每各类别中的样本y(0-1变量)的结果必须包含0和1,必须有0存在,也必须有1存在,也就是2009年A省S行业的企业y必须都拥有0和1,不然该分类将被作为缺失值删除。
沙发
AnneLQW 发表于 2019-11-30 21:28:09 |只看作者 |坛友微信交流群
楼主解决了吗?我也出现了类似的情况,求解答

使用道具

藤椅
震震果实 发表于 2019-12-1 17:09:47 |只看作者 |坛友微信交流群
加入虚拟变量后,便是对其进行分类,每各类别中的样本y(0-1变量)的结果必须包含0和1,必须有0存在,也必须有1存在,也就是2009年A省S行业的企业y必须都拥有0和1,不然该分类将被作为缺失值删除。

使用道具

板凳
薄言往诉 发表于 2019-12-16 10:41:28 |只看作者 |坛友微信交流群
震震果实 发表于 2019-12-1 17:09
加入虚拟变量后,便是对其进行分类,每各类别中的样本y(0-1变量)的结果必须包含0和1,必须有0存在,也必须 ...
这下明白了,感谢!

使用道具

没太看懂怎么理解的,楼主可以帮忙解释一下嘛?
我也遇到了类似的问题。
同样的数据回归两次,第一个固定的是city fe, prov-year fe, 第二个固定的是city fe, year fe. 然后这俩回的obs就不一样了

使用道具

震震果实 发表于 2019-12-1 17:09
加入虚拟变量后,便是对其进行分类,每各类别中的样本y(0-1变量)的结果必须包含0和1,必须有0存在,也必须 ...
属于2009年A省S行业的这些公司,他们对应的year=2009,prov=A,sector=S的这三个虚拟变量肯定是1,然后为他的比如他们对应的year=2010这个dummy下就是0,所以每一家公司不都是有o和1的dummy吗?

使用道具

7
震震果实 发表于 2020-2-25 20:26:28 |只看作者 |坛友微信交流群
北方的北方有极光 发表于 2020-2-25 19:00
属于2009年A省S行业的这些公司,他们对应的year=2009,prov=A,sector=S的这三个虚拟变量肯定是1,然后为 ...
多读几遍,注意是因变量Y必须有0也有1。

使用道具

震震果实 发表于 2020-2-25 20:26
多读几遍,注意是因变量Y必须有0也有1。
嗷嗷我懂了,他是用的logistic,被解释变量是CEO晋升情况,所以Y分类之后,每个类下面Y要有0和1.
能不能像你请教一下我的问题,和这个类似。我的是reghdfe面板数据的回归,被解释变量是人均债务,我第一个回归加入了地级市FE,省份-年份FE,第二个回归是加入地级市FE和年份FE。结果两个回归观测值不一样了。想不通是怎么回事...

使用道具

9
震震果实 发表于 2020-2-25 22:26:39 |只看作者 |坛友微信交流群
北方的北方有极光 发表于 2020-2-25 20:53
嗷嗷我懂了,他是用的logistic,被解释变量是CEO晋升情况,所以Y分类之后,每个类下面Y要有0和1.
能不能 ...
那需要你贴上你具体的命令,不要贴结果。

使用道具

震震果实 发表于 2020-2-25 22:26
那需要你贴上你具体的命令,不要贴结果。
以下是我的部分数据资料和code
  1. * Example generated by -dataex-. To install: ssc install dataex
  2. clear
  3. input float(debtp ov1)
  4. .9467791  -.6400917
  5. .9324977  -.5691562
  6. .9193387  -.4791276
  7. .9074724  -.3715745
  8. .8470208 -.28207403
  9. .8837482  -.1599016
  10. .8753379 -.11981803
  11. .8615698 -.08116084
  12. .8485549    .146676
  13. .8364354  .33763415
  14. 我的两个回归命令如下:
  15. 第一个回归命令:
  16. reghdfe debtp ov1,absorb(city prov#year) vce(cluster prov#year)
  17. 回归结果显示的obs=1,341
  18. 第二个回归命令:
  19. reghdfe debtp ov1,absorb(city year) vce(cluster prov#year)
  20. 回归结果显示的obs=1,439
  21. 两个回归用的是同样的数据,唯一差异在于,第一个固定的是city fe, prov-year fe;第二个固定的是city fe, year fe.
  22. end
复制代码
我的问题是:
同样的数据两次回归,只是固定效应不同,为什么观测值数量会有差异呢?或者您有什么好的改正方法吗?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-26 09:05