楼主: tdolook33
4623 1

[学习资料] 如何确定logistic回归的cutoff [推广有奖]

  • 0关注
  • 0粉丝

本科生

79%

还不是VIP/贵宾

-

威望
0
论坛币
159 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
487 点
帖子
45
精华
0
在线时间
146 小时
注册时间
2010-10-3
最后登录
2019-1-4

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
大家好,具体问题如下:

一、例:样本的配比比例为1=6.8, 0=93.2。那么我在用spss做logit回归的时候的classfication cutoff是否设置成0.068?

二、例:6000+样本,变量15个左右,我无论怎么选择自变量,其对因变量的R-squre值都很小(几乎都小于0.1),这是为什么呢?要怎么做才能提高这个值呢?



谢谢。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:logistic回归 logistic logisti ogistic logist 因变量 自变量 如何 样本 左右

沙发
赵安豆 发表于 2024-11-2 11:42:01 |只看作者 |坛友微信交流群
一、关于Logistic回归中的分类阈值(cutoff),在不平衡数据集的情况下,并不一定非得使用样本比例作为阈值。通常情况下,我们选择的cutoff值是为了达到特定的业务目标或是权衡精度与召回率(或精确度和敏感度)。

例如,在你提到的例子中,如果1类是异常事件且误报的成本很高,则可能需要一个较高的cutoff来减少假阳性;相反,如果漏报1类事件的后果更严重,则可能需要降低cutoff以提高识别率。因此,并不建议简单地将cutoff设置为0.068。

确定最优的cutoff值的一种常用方法是通过ROC曲线(Receiver Operating Characteristic Curve)。你可以根据业务需求或成本函数来选择一个点,这个点能够平衡真阳性率和假阳性率,通常选取的是曲线上离左上角最近的点。在SPSS中,可以通过保存预测概率,并使用这些预测概率与真实类别的关系来绘制ROC曲线并寻找最优cutoff。

二、R-squared值在Logistic回归中并不常见;它主要用于线性回归模型。然而,有类似的统计量如Cox & Snell R-Square和Nagelkerke R-Square用于衡量分类模型的解释力或拟合度。如果这些值很低(小于0.1),可能意味着以下几点:

1. **变量选择不当**:你当前选择的自变量可能与因变量关联不强,或者重要预测变量被遗漏。

2. **数据性质**:某些情况下,即使选择了正确的变量,由于内在的数据分布或随机性,模型也可能表现不佳。例如,如果因变量主要由未包含在分析中的因素驱动,则模型的解释力自然有限。

3. **非线性关系**:Logistic回归假设自变量与对数几率之间存在线性关系。如果实际的关系是非线性的,那么简单的Logistic回归可能无法捕捉这种复杂性。

提高模型性能的一些方法包括:

- **特征工程**:尝试转换现有变量或创建新变量(如交叉项、非线性项)以捕获更复杂的模式。
  
- **使用更多数据**:更多的观察值可以提供更多的信息,有助于模型学习到更强的关联。

- **考虑更复杂的方法**:如果Logistic回归不能充分解释数据,可以尝试其他机器学习算法如随机森林或神经网络,它们可能更好地处理非线性关系和高维空间中的模式。当然,在使用这些方法时需要防止过拟合。

最后,请记住在调整模型和参数的同时,保持统计的合理性,并确保结果能够反映实际情况与需求。

此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用



使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-21 17:43