楼主: freedate
737 4

[Modeler] 两个问题在线等待 [推广有奖]

  • 0关注
  • 0粉丝

本科生

3%

还不是VIP/贵宾

-

威望
0
论坛币
100 个
通用积分
0.5123
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
599 点
帖子
30
精华
0
在线时间
68 小时
注册时间
2016-6-16
最后登录
2025-6-22

楼主
freedate 发表于 2023-7-31 08:30:55 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我本人菜鸟,使用modeler的实际工作中遇到如下几个问题:

第一,测试集、训练集、验证集准确度都在65%上下,请问这个准确度有实际参考价值吗?
第二,无论输入变量增减多少,但测试集和训练集的准确度始终变化不大,或者几乎没有增减变化,这是说明什么?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:在线等 MODELER modele model mode

沙发
att006 发表于 2023-7-31 08:40:52
准确度是指分类模型对于测试集、训练集或验证集中样本的正确分类率。在使用SPSS Modeler或其他机器学习工具进行分类任务时,获得65%左右的准确度是一个常见的情况。然而,是否有实际参考价值取决于具体的应用场景和问题的复杂性。对一些简单的分类问题或者数据集相对简单的情况,65%的准确度可能已经是一个不错的结果。但对于一些复杂的分类问题,比如高度不平衡的数据集、特征之间相关性较强、噪音较多的数据等,65%的准确度可能不足以满足实际应用的要求。
在实际工作中,准确度仅仅是评估分类模型性能的一个指标,还需要考虑其他评估指标来全面评估模型的优劣。一些常用的评估指标包括:
混淆矩阵(Confusion Matrix): 混淆矩阵是用来表示模型预测结果的分类情况,包括真阳性、真阴性、假阳性和假阴性。从混淆矩阵中可以计算出精确率、召回率、F1分数等指标,进一步评估模型在不同类别上的性能。
ROC曲线(Receiver Operating Characteristic Curve): ROC曲线是用来评估二分类模型的性能,展示了模型在不同阈值下的真阳性率和假阳性率之间的折衷关系。面积下面积(AUC)是ROC曲线下面积的度量,用来评估模型的分类能力。
对高度不平衡的数据集,可以使用特定的评估指标如查准率、查全率、G-Measure等来更全面地评估模型性能。

藤椅
att006 发表于 2023-7-31 08:43:56
测试集和训练集准确度的稳定性可能是模型已经达到一定性能瓶颈,或者数据质量、样本量等因素限制了模型的进一步提升。当测试集和训练集的准确度始终变化不大,或者几乎没有增减变化,可能存在以下几种情况:
1、欠拟合(Underfitting): 欠拟合是指模型过于简单,不能很好地拟合训练数据。即使输入变量增加或减少,模型的预测能力也没有明显改善或恶化。在这种情况下,模型可能无法捕捉数据中的复杂关系,导致训练集和测试集的准确度都相对较低且稳定。
2、特征之间的相关性: 如果输入变量之间存在强烈的相关性,可能会导致模型对数据进行了冗余拟合,即使增加或减少输入变量,模型的性能也不会有明显的变化。
3、样本数据不足: 如果训练集和测试集的样本数据量较小,模型可能无法从数据中学到足够的模式和规律,导致准确度的变化较小。
4、模型复杂度合适: 如果模型的复杂度已经适中,增加或减少输入变量并不会显著影响模型的性能。这种情况下,模型可能已经找到了较好的平衡点,再次调整模型可能不会带来明显的改进。
5、其他因素影响: 测试集和训练集的准确度受到多个因素的影响,包括数据质量、模型选择、参数调优等。如果这些因素保持不变,准确度也可能保持相对稳定。
针对以上情况,可以考虑以下措施:
如果存在欠拟合问题,可以尝试使用更复杂的模型或增加特征工程步骤,以提高模型的拟合能力。
如果特征之间存在相关性,可以考虑进行特征选择或降维处理,以减少冗余信息。
如果样本数据不足,可以尝试收集更多的数据或使用数据增强技术来扩充样本量。
如果模型复杂度合适,可以考虑进行模型融合或集成学习等方法,以进一步提高模型性能。
评估模型时还需注意使用交叉验证等方法,确保模型的泛化能力和稳定性。
已有 1 人评分经验 学术水平 热心指数 信用等级 收起 理由
kychan + 60 + 5 + 5 + 5 热心帮助其他会员

总评分: 经验 + 60  学术水平 + 5  热心指数 + 5  信用等级 + 5   查看全部评分

板凳
freedate 发表于 2023-7-31 14:32:32
att006 发表于 2023-7-31 08:43
测试集和训练集准确度的稳定性可能是模型已经达到一定性能瓶颈,或者数据质量、样本量等因素限制了模型的进 ...
十分感谢。
经过你的提醒,还真存在数据特征之间的高度相关性。

报纸
wxhpldmm 发表于 2023-8-1 16:18:11
提示: 该帖被管理员或版主屏蔽  ereree 广告 2023-8-4 10:36

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-11 00:42