楼主: yaoqsm321
57204 80

[问答] 随机森林过拟合问题,在训练集上表现很好,在测试集上的表现很差 [推广有奖]

61
大一仔 发表于 2016-12-14 12:22:47
jgchen1966 发表于 2016-12-14 11:17
行吧!!!人人是不同的,念书的结果当然 也不同!!!
好吧,随机森林你解释不了,又引用了SVM里的机器学习的概念来碾压。但是依然无法解释需要LZ数据的独立同分布。如果每个样本之间的分布不同,怎么将模型应用于未知样本?
但是其实同分布这个问题除了用于证明模型的有效之外,根本无需考虑,这也是你所说的“大家容易忽略”的部分。因为这个分布是未知而“假设”的,因此我可以认为所有的样本在一定的应用范围内都是同分布的,只是分布未知。所以,不是大家故意忽略,而是机器学习之所以适用,就是不用考虑,因为从总体中随机抽样的样本必定服从一个未知的分布,自然不需要要求数据独立同分布。写证明性的论文你必须按这个假设去走,但是在模型的应用时,不需要考虑,除非你是神,你一眼看透它们的分布。

62
大一仔 发表于 2016-12-14 12:30:07
yaoqsm321 发表于 2016-12-14 11:26
我把788个小样本复制了两遍,然后加进了原数据,数据结构变成了6689个总数据,其中1为4324,0为2364个,然 ...
如果你心里没底,可以研究下caret里专门解决unbalanced数据的方法http://topepo.github.io/caret/subsampling-for-class-imbalances.html,用了SMOTE算法进行二次抽样,会更科学。

63
jameschin007 发表于 2016-12-14 12:48:56
yaoqsm321 发表于 2016-12-14 11:26
我把788个小样本复制了两遍,然后加进了原数据,数据结构变成了6689个总数据,其中1为4324,0为2364个,然 ...
差不多就是这个意思。

64
jameschin007 发表于 2016-12-14 12:49:41
大一仔 发表于 2016-12-14 12:30
如果你心里没底,可以研究下caret里专门解决unbalanced数据的方法http://topepo.github.io/caret/subsamp ...
我一般用rose包。谢谢给出资料。

65
Metaneo 学生认证  发表于 2016-12-14 12:51:05
还可以这样,不错。感谢这个思路

66
yaoqsm321 发表于 2016-12-14 13:36:32
大一仔 发表于 2016-12-14 12:30
如果你心里没底,可以研究下caret里专门解决unbalanced数据的方法http://topepo.github.io/caret/subsamp ...
我了解过这个方法,我嫌太麻烦了,就没有用,直接复制了。。。。这个方法应该会更好,更科学,谢谢你。

67
yaoqsm321 发表于 2016-12-14 13:43:43
jameschin007 发表于 2016-12-14 12:48
差不多就是这个意思。
那这个问题先就这样解决吧,非常感谢你这两天不辞辛劳帮我解决问题,谢谢!!

68
yaoqsm321 发表于 2016-12-14 13:44:43
大一仔 发表于 2016-12-14 12:30
如果你心里没底,可以研究下caret里专门解决unbalanced数据的方法http://topepo.github.io/caret/subsamp ...
还有,感谢你提供的这份材料,非常宝贵。

69
jgchen1966 发表于 2016-12-21 13:08:46
yaoqsm321 发表于 2016-12-14 11:26
我把788个小样本复制了两遍,然后加进了原数据,数据结构变成了6689个总数据,其中1为4324,0为2364个,然 ...
仅仅复制已有数据,没有增加任何新信息量,结果“突一下”变好了,可信吗?? 当然不可信!!!
据我对你数据分析,用测试数据集(test  dataset )的AUC 作模型绩效标准,用 downsample、upsample、smote 、还是,用ROSE  ,  测试数据集的AUC ,约相同,为 0.605-0.635,没啥子实质改善!!!
    你的数据集,非常不规整,理应进行进一步的预处理,并且,这些变量也不是很有效,在实际工作,必然要进一步收集新变量的数据!!!!

70
jgchen1966 发表于 2016-12-21 13:18:43
数据不规整,会严重影响“随机抽样的”效率与有效性,而,随机森林及模型评估,是建立在随机抽样的有效与高效的基础上!!!
AUC,是评估分类器较佳指标,尤其对不平衡分类数据,它不受分类的切点(cutoff)影响!!!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-26 11:55