楼主: yaoqsm321
57209 80

[问答] 随机森林过拟合问题,在训练集上表现很好,在测试集上的表现很差 [推广有奖]

71
jgchen1966 发表于 2016-12-21 13:27:05
yaoqsm321 发表于 2016-12-14 11:25
我把788个小样本复制了两遍,然后加进了原数据,数据结构变成了6689个总数据,其中1为4324,0为2364个,然 ...
你的这个结果,是oob 的结果。。用cutoff优化,可做至oob分类正确率100%,但对测试集数据预测没实质意义。。

72
yaoqsm321 发表于 2016-12-23 15:12:17
jgchen1966 发表于 2016-12-21 13:27
你的这个结果,是oob 的结果。。用cutoff优化,可做至oob分类正确率100%,但对测试集数据预测没实质意义。 ...
我发现你是对的,我用我把788复制后,有6千多个数据,然后把所有的连续变量进行了离散化(也就是分成了几类),然后80%为训练,20%为测试,结果非常好。但是我用最新拉出来的439个新数据来跑这个模型,结果却是非常差,而且很多时候运行不出来(显示错误:Type of predictors in new data do not match that of the training data.)我又迷茫了,是因为数据不行吗?但为什么模型再测试数据集上的效果会那么好?

73
yaoqsm321 发表于 2016-12-23 15:14:31
jgchen1966 发表于 2016-12-21 13:08
仅仅复制已有数据,没有增加任何新信息量,结果“突一下”变好了,可信吗?? 当然不可信!!!
据我对你 ...
你说的不规整是什么意思呀?又怎么进一步预处理呢?另外,其实我就这么多变量,短期内不可能有新的变量了

74
jgchen1966 发表于 2016-12-23 15:44:35
yaoqsm321 发表于 2016-12-23 15:14
你说的不规整是什么意思呀?又怎么进一步预处理呢?另外,其实我就这么多变量,短期内不可能有新的变量了
这不是一个简单的问题,是一种经验:比如,数据集含很分类数据,但在一些水平,几乎没有数据,这时,恐怕要将一些水平合并,又如,数据集近一半变量实际是无效的,它们仅仅增加了噪音,增加了模型的过拟可能性。又如,这些变量,表现出明显同一性,都从一方向分类数据,变量缺少多样性,在样本内有一个变量(你自已找)的分类效果已达到randomForest的效果。。。这些,要从数据探索过程中学。没有正式格式。。这也是DATAMINING 中最难的.....

75
jgchen1966 发表于 2016-12-23 15:49:13
jgchen1966 发表于 2016-12-23 15:44
这不是一个简单的问题,是一种经验:比如,数据集含很分类数据,但在一些水平,几乎没有数据,这时,恐怕 ...
这不是一个简单的问题,是一种经验:比如,数据集含很分类型变量,但在一些水平,几乎没有数据,这时,恐怕要将一些水平合并,又如,数据集近一半变量实际是无效的,它们仅仅增加了噪音,增加了模型的过拟可能性。又如,数据变量,表现出明显同一性(即相关性很高),都从一方向分类数据,变量缺少多样性,在样本内有一个变量(你自已找)的分类效果已达到randomForest的效果。因而要增加分类效果,必须要有新变量数据,否则就这样一个结果。通过数据探索分析并将其规整化,也就增加AUC 0.1 左右就不错了。。这些,要从数据探索过程中学。没有正式格式。。这也是DATAMINING 中最难的.....

76
yaoqsm321 发表于 2016-12-23 15:52:36
jgchen1966 发表于 2016-12-23 15:44
这不是一个简单的问题,是一种经验:比如,数据集含很分类数据,但在一些水平,几乎没有数据,这时,恐怕 ...
是的,我的数据集里边有很多变量分为两类,其中一类占了90%,另一类占了10%,差异非常大,,但是我最后都把这种变量给删了,可还是不行

77
yaoqsm321 发表于 2016-12-23 15:52:37
jgchen1966 发表于 2016-12-23 15:44
这不是一个简单的问题,是一种经验:比如,数据集含很分类数据,但在一些水平,几乎没有数据,这时,恐怕 ...
是的,我的数据集里边有很多变量分为两类,其中一类占了90%,另一类占了10%,差异非常大,,但是我最后都把这种变量给删了,可还是不行

78
jgchen1966 发表于 2016-12-23 15:56:02
jgchen1966 发表于 2016-12-23 15:49
这不是一个简单的问题,是一种经验:比如,数据集含很分类型变量,但在一些水平,几乎没有数据,这时,恐 ...
新变量???如,你的数据,好象要分析客户的好坏,这与经济环境是明显相关的,数据集没有经济环境变量,增加它们,可能会改善分类效果。。。

79
yaoqsm321 发表于 2016-12-23 17:19:56
jgchen1966 发表于 2016-12-23 15:56
新变量???如,你的数据,好象要分析客户的好坏,这与经济环境是明显相关的,数据集没有经济环境变量, ...
好吧,那就是说目前没有办法可以改进这个模型楼?

80
jgchen1966 发表于 2016-12-23 17:37:42
yaoqsm321 发表于 2016-12-23 17:19
好吧,那就是说目前没有办法可以改进这个模型楼?
尚需多方努力吧。。要有一个有实用价值的分类模型,是不易的。。。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-26 14:17