楼主: zcEden
844 7

[统计软件与数据分析] 求问关于logistic回归的条件 [推广有奖]

  • 0关注
  • 0粉丝

大专生

11%

还不是VIP/贵宾

-

威望
0
论坛币
969 个
通用积分
0.0766
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
96 点
帖子
7
精华
0
在线时间
70 小时
注册时间
2022-3-10
最后登录
2025-3-19

楼主
zcEden 发表于 2023-12-8 13:24:41 |AI写论文
10论坛币
请问一下如果样本一共有七百多,但可以取值为1的只有29例,这样可以用logistic回归吗?

关键词:logistic回归 logistic ogistic logisti logist

沙发
小茜子a 学生认证  发表于 2023-12-8 18:14:47
如果观测值非常多的话,可以从0值里面随机抽取一小部分子样本,样本量与1值的数量相差不大,二者组成一个新的样本。然后用新样本做Logistic模型。

藤椅
crescentduke 发表于 2023-12-9 09:48:16
如果不想损失样本数,那么把取值为一的样本列出,然后用内插方法获得更多样本即可。

板凳
crescentduke 发表于 2023-12-9 09:48:45
如果不想损失样本数,那么把取值为一的样本列出,然后用内插方法获得更多样本即可。

报纸
zhangJocelyn 学生认证  发表于 2023-12-11 13:46:39
可以,但是需要注意样本量问题。在回归分析中,存在着一个样本量是自变量个数10倍以上的概念,英文的意思是10 events per variable (10 EPV)。在二分类结局中,有效样本量将根据两类结果观察数的最小值而定。对于样本量不足的情况,可以采用先单因素后多因素策略,即先单因素后多因素策略不是所有回归分析都要采纳的。这种理念的出现是因为小样本量而多自变量数,如果是大样本量但自变量数也不多,没有必要采用单因素后多因素,直接多因素回归分析即可。对于小样本量多自变量数的研究,我认为是主流的方法是纳入必要的自变量进入模型。必要的自变量指的是理论上是研究结局的原因变量才纳入进来。建立回归分析之前,必须认真考虑,哪些是结局可能的原因变量,哪些可能是混杂变量,哪些又可能是中介变量。不能什么都不考虑,一股脑全放进来,或者一股脑先单因素再多因素。¹²³⁴⁵

源: 与必应的对话, 2023/12/11
(1) 心塞!样本量不够多,还能开展logistic回归吗? - 知乎. https://zhuanlan.zhihu.com/p/617874780.
(2) Logistic回归样本量应该如何计算? - 百度文库. https://wenku.baidu.com/view/aab2fe5c01768e9951e79b89680203d8ce2f6abf.html.
(3) [机器学习实战-Logistic回归]使用Logistic回归预测各种实例_logistic预测-CSDN博客. https://blog.csdn.net/weixin_45287266/article/details/105845175.
(4) Logistic回归系列——案例分析 - 知乎 - 知乎专栏. https://zhuanlan.zhihu.com/p/212314363.
(5) 经典Logistic回归:原理、计算步骤以及应用 - 知乎. https://zhuanlan.zhihu.com/p/353112595.

地板
lihuistat 发表于 2023-12-12 00:39:46
consider using the weighted logistic regression

7
meibanpang0 发表于 2023-12-31 09:31:17
我也遇到这样的问题了,蹲一下

8
悦悦奥力给 发表于 2024-1-3 13:10:43
由于因变量的不平衡分布,模型可能倾向于预测较多数类(取值为0)而忽略少数类(取值为1)。这可能导致模型预测性能的下降。可以考虑使用样本均衡技术(如过抽样、欠抽样或合成样本生成方法等)来平衡样本,以便更好地处理不平衡问题。如果数据集中少数类的样本非常有限,可以考虑使用其他机器学习方法,如决策树、随机森林、支持向量机等。这些方法在处理不平衡数据时可能更具优势。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-29 11:11