楼主: manyu123546
1221 4

样本极度不均衡的逻辑回归风控评分看建模怎么处理? [推广有奖]

  • 0关注
  • 0粉丝

已卖:27份资源

本科生

40%

还不是VIP/贵宾

-

威望
0
论坛币
99 个
通用积分
0.2716
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
760 点
帖子
40
精华
0
在线时间
91 小时
注册时间
2013-12-9
最后登录
2025-9-15

楼主
manyu123546 学生认证  发表于 2023-6-26 11:21:20 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
样本极度不均衡的逻辑回归风控评分看建模怎么处理?
情况:正样本 :32万 ;负样本: 1100  ;正负样本比:290:1。
目的:尽可能少损失正样本数据信息。
方案1:正样本随机抽取10万样本,负样本采用SMOTE采样至1万样本,正负样本比10:1,在模型中设定类别权重class_weight={0:1,1:10:1}。
方案2:正样本分层随机抽取1万样本,负样本采用SMOTE采样至1万样本,正负样本比1:1。
以上方案是否可行?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:怎么处理 逻辑回归 不均衡 Weight weigh

沙发
manyu123546 学生认证  发表于 2023-6-26 11:21:55
样本极度不均衡的逻辑回归风控评分卡建模怎么处理?

藤椅
pengyizhen 发表于 2023-7-18 22:46:13
看下参考这个官网教程是否有用的https://tensorflow.google.cn/tut ... ata/imbalanced_data

板凳
shenyunR 发表于 2023-11-9 10:56:15
你的不平衡度IR太大了290,传统三类不平衡采样方法可能在精度结果上都不是很好,如果数据可以的话可以试着对数据进行质量控制,先从原始数据入手降低不平衡度,

报纸
430_1567959049 发表于 2024-5-22 07:25:05
在处理样本极度不均衡的问题时,逻辑回归模型可以通过多种方法来提高模型的性能和稳定性。对于你提供的两个方案,我们可以逐一进行分析,并提供一些建议。

方案1:正样本随机抽取10万,负样本SMOTE至1万,正负样本比10:1,class_weight设定为{0:1, 1:10}
优点:

平衡样本:使用SMOTE对负样本进行过采样,使得正负样本比例变为10:1,能够帮助模型更好地学习到负样本的特征。
类别权重调整:通过设置类别权重,进一步平衡样本,减少模型对多数类的偏倚。
缺点:

信息丢失:虽然你保留了较多的正样本,但仍然丢失了22万正样本的信息。
过采样的噪音问题:SMOTE生成的负样本可能会引入噪音,从而影响模型的性能。
方案2:正样本分层随机抽取1万,负样本SMOTE至1万,正负样本比1:1
优点:

平衡样本:1:1的样本比例使得模型在训练时能够更好地学习到正负样本的特征。
简单直接:此方法比较直接,通过分层抽样和过采样使得数据更为平衡。
缺点:

信息丢失:只使用了1万正样本,相较于32万的总正样本数来说,信息丢失较多。
综合分析与建议
改进方案:

更多负样本的合成:考虑将负样本过采样到更接近于正样本的数量,比如将负样本过采样到5万或者更多,以减少噪音并提高样本的代表性。

分层抽样结合:可以在SMOTE之前对负样本进行分层抽样,以确保生成的负样本更加多样化和真实。

使用所有正样本:尝试使用全部32万正样本,但通过减少负样本的过采样倍数(例如负样本过采样到3万或5万),以维持正负样本比例的合理性。

混合采样:结合过采样和欠采样的方法。即对正样本进行适度欠采样,对负样本进行过采样,以达到较为平衡的数据集。

使用高级采样技术:例如ADASYN(Adaptive Synthetic Sampling),这是一种改进版的SMOTE,它更加关注难分类的样本。

交叉验证和模型评估:无论使用哪种方案,都需要进行严格的交叉验证和模型评估,以确保模型在不同数据集上的性能表现稳定。

调整模型参数:除了调整类别权重外,还可以尝试调整其他模型参数(如正则化参数),以进一步提高模型的表现。

最终,两个方案都有其可行性,但为了尽可能保留正样本的信息,建议采用混合采样和适度的过采样策略,同时通过交叉验证不断优化模型性能。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-5 02:00