肯定是犯了统计学的两类错误了
原因不出以下几条:
1、数据不平衡,某个分类变量中有些处理有很多重复,有些只有几个个重复或者直接缺失,如果某个分类99%是1,剩下几个可怜的0,不如干脆删掉
2、建议重点看看几个连续变量,如果某段数值缺失,会造成严重的正态性问题,转化下数据,取对数、开根号、反平方根都试试,直到正态性检验通过为止
3、做下共线性检验,把相关性较大的变量合并掉或者删除部分变量
|
楼主: yaoqsm321
|
57214
80
[问答] 随机森林过拟合问题,在训练集上表现很好,在测试集上的表现很差 |
| ||
加好友,备注cda京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明


