楼主: yaoqsm321
57213 80

[问答] 随机森林过拟合问题,在训练集上表现很好,在测试集上的表现很差 [推广有奖]

81
机械唯物主义123 发表于 2016-12-24 03:20:34
肯定是犯了统计学的两类错误了
原因不出以下几条:
1、数据不平衡,某个分类变量中有些处理有很多重复,有些只有几个个重复或者直接缺失,如果某个分类99%是1,剩下几个可怜的0,不如干脆删掉
2、建议重点看看几个连续变量,如果某段数值缺失,会造成严重的正态性问题,转化下数据,取对数、开根号、反平方根都试试,直到正态性检验通过为止
3、做下共线性检验,把相关性较大的变量合并掉或者删除部分变量

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-26 18:04