楼主: taoyi8891
14608 7

[问答] logistic回归出现一下警告信息,怎么解决? [推广有奖]

  • 0关注
  • 0粉丝

高中生

30%

还不是VIP/贵宾

-

威望
0
论坛币
7 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
455 点
帖子
20
精华
0
在线时间
22 小时
注册时间
2008-12-15
最后登录
2014-5-5

楼主
taoyi8891 发表于 2012-12-12 19:56:41 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
                                                                                          a=glm(V11~.,w4,family="binomial")
警告信息:
1: glm.fit:算法没有聚合
2: glm.fit:拟合機率算出来是数值零或一


数据是九个自变量,一个因变量,全部是定性变量,自变量全部都有十个水平,因变量有两个水平
请问为什么会有这个警告信息?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:logistic回归 logistic logisti ogistic logist logistic回归 警告信息

沙发
babybaby 发表于 2012-12-13 07:13:48
x 中有多重共线性。
或y中太多的1 或 0,即数据不平衡。
总之,数据不nice.

藤椅
taoyi8891 发表于 2012-12-13 10:21:16
babybaby 发表于 2012-12-13 07:13
x 中有多重共线性。
或y中太多的1 或 0,即数据不平衡。
总之,数据不nice.
多谢指教,logistic回归要求因变量为分类变量,我的因变量分成了2和4两类。如果是用0和1分类,那y中肯定只有0或1啊?
不太明白数据不平衡的意思
那回归结果还有意义吗?
方便的话麻烦再帮我下,多谢

板凳
babybaby 发表于 2012-12-13 10:41:33
不平衡的意思是有太多的1或者0.
如果太多0 或者1,回归当然没有意义,p直接估计成0 或1 就可以了。

报纸
juanjgu 发表于 2014-4-9 11:33:57
babybaby 发表于 2012-12-13 10:41
不平衡的意思是有太多的1或者0.
如果太多0 或者1,回归当然没有意义,p直接估计成0 或1 就可以了。
同样出现了这个问题   但我只有一个自变量  因变量6个14个0

地板
qingyunhe 发表于 2017-6-13 15:19:44
babybaby 发表于 2012-12-13 10:41
不平衡的意思是有太多的1或者0.
如果太多0 或者1,回归当然没有意义,p直接估计成0 或1 就可以了。
讲解很通俗,感谢!

7
bfdddp 发表于 2017-6-14 10:29:57
把你数据发上来,我来拟合后看看, 用writetable 写成逗号文件,直接粘贴上来。我感觉是参数传递问题。

8
赵安豆 发表于 2024-7-15 17:02:51
这个警告信息通常出现在Logistic回归中当模型遇到了完全分离的问题时。这意味着在你的数据集中,存在一些自变量的某个特定组合下,所有的观测值都属于同一个类别(即因变量的一个水平)。这会导致概率估计为0或1,并且使得迭代算法无法找到一个最优解。

例如,在你的数据中,可能存在某种模式,当自变量处于某些特定的组合时,所有观察结果都是因变量中的“成功”或“失败”。在这种情况下,模型将不能收敛到唯一解,因为任何一个使这些观测值预测概率为1(或0)的参数估计都会是合理的解。

为了解决这个问题,你可以尝试以下几种方法:

1. **数据调整**:检查你的自变量是否有过多的水平数或者是否存在完全分离的情况。可以考虑合并一些自变量的水平以减少这种现象的发生。
   
2. **增加正则化**:使用带有Lasso(L1)或Ridge(L2)正则化的Logistic回归模型,可以帮助避免参数估计的过拟合。

3. **Firth logistic regression**:这是一种在似然函数中加入偏移量的方法来解决分离问题。在R语言中,可以使用`logistf`包实现。
   
4. **增加观测值或收集更多数据**:有时候,增加样本数量可以缓解完全分离的问题。

5. **降维**:如果自变量之间存在多重共线性或者相关性过高,可以尝试进行主成分分析(PCA)或者因子分析来降低维度后再进行建模。
   
6. **使用Bayesian方法**:Bayesian logistic regression通过定义先验分布可能能帮助缓解完全分离问题。

请根据你的具体情况进行调整和选择。如果数据量较小或变量水平过多,前两种方法可能是更直接的解决方案。在处理复杂模型时,考虑使用Firth回归或其他统计软件包提供的高级方法可能会更加合适。

此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用



您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-2 17:31