R随机森林做二元分类遇到问题！

2关注
1粉丝

准贵宾（月）

本科生

28%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 997 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 1458 点
帖子: 44
精华: 0
在线时间: 110 小时
注册时间: 2012-12-15
最后登录: 2018-9-27

楼主

若の渡2.0

发表于 2017-10-25 10:17:00 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

输入的变量全是连续数值，有15个。输出的变量为是否故障（0-1）。样本总数是80左右，正负样本各占一半。出现以下问题：

1）不论多少树，准确率都低于40%，也就时低于随机选择；

2）树越多准确率越低。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：随机森林准确率

相关帖子

沙发

qiu435 发表于 2017-10-25 11:03:17

样本容量太小，经过抽样后构建的训练集已已经无法反映原始数据的信息。最后的办法就是增加样本容量。如果无法增加样本容量，替代的方法就是把数据复制3~5次，当作重复，会明显改善预测准确率，虽然这样做可能不是很对。

藤椅

若の渡2.0

发表于 2017-10-25 11:15:57

qiu435 发表于 2017-10-25 11:03
样本容量太小，经过抽样后构建的训练集已已经无法反映原始数据的信息。最后的办法就是增加样本容量。如果无 ...

谢谢您！样本少造成随机森林分类准确率无法随着树的增多而提高。我不明白为什么效果会低于人为瞎选呢（50%），换个思路，准确率低于40%，只要把正负预测的倒过来你不就提高到60%了吗，为什么算法不能主动这样做。

板凳

jameschin007 发表于 2017-10-25 12:07:02

若の渡2.0 发表于 2017-10-25 11:15
谢谢您！样本少造成随机森林分类准确率无法随着树的增多而提高。我不明白为什么效果会低于人为瞎选呢（50 ...

最好看一下这些变量的重要度。我猜测可能很多变量对预测起不到作用。
那么很多树在选取这些变量时，效果就差。
随机森林类似投票机制，学渣多了，学霸的声音被盖住了。

报纸

qiu435 发表于 2017-10-25 13:50:28

若の渡2.0 发表于 2017-10-25 11:15
谢谢您！样本少造成随机森林分类准确率无法随着树的增多而提高。我不明白为什么效果会低于人为瞎选呢（50 ...

随机森林给出的预测率并不是准确率，而是OBB误差率，即使用随机抽样剩下的袋外数据进行预测，用于评估模型的分类效果的，是集合了所有树的平均值的。由于随机森林采用bootdtrap有放回的抽样，样本太小，会用可能一些观测值未被抽到，造成OBB误差太高。试下样本复制几次，作为重复看看。我也遇到过这样的情况。

地板

qiu435 发表于 2017-10-25 13:54:20

jameschin007 发表于 2017-10-25 12:07
最好看一下这些变量的重要度。我猜测可能很多变量对预测起不到作用。
那么很多树在选取这些变量时，效果 ...

含有重要度的低的变量并不会影响结果，但是对于每个节点上使用多少个变量，即mtry参数需要通过逐次计算进行优化。

7楼

jameschin007 发表于 2017-10-25 14:02:24

qiu435 发表于 2017-10-25 13:54
含有重要度的低的变量并不会影响结果，但是对于每个节点上使用多少个变量，即mtry参数需要通过逐次计算进 ...

但是如果有大量重要度不高的变量，与预测关系不相关的变量存在，会影响预测的准确率吧。
我做feature selection 的时候，很明显有一个预测率随着feature逐渐减少的预测效果逐步提高，然后再下降的过程。

8楼

若の渡2.0

发表于 2017-10-30 09:49:19

qiu435 发表于 2017-10-25 13:50
随机森林给出的预测率并不是准确率，而是OBB误差率，即使用随机抽样剩下的袋外数据进行预测，用于评估模型 ...

我将样本重复3、4次后，误差率确实小了很多，甚至达到了5%之内，但是随着带来了过拟合情况。也就是换了个样本群体，误差率陡升！

9楼

qiu435 发表于 2017-10-31 11:20:06

若の渡2.0 发表于 2017-10-30 09:49
我将样本重复3、4次后，误差率确实小了很多，甚至达到了5%之内，但是随着带来了过拟合情况。也就是换了个 ...

那是必然的，这个只是样本太小的替代方法。最好的方法还是扩大样本容量。还有一种可能就是你的数据预测变量的解释率本来就不高，或者说预测变量与响应变量相关性不高

10楼

qiu435 发表于 2017-10-31 11:22:51

若の渡2.0 发表于 2017-10-30 09:49
我将样本重复3、4次后，误差率确实小了很多，甚至达到了5%之内，但是随着带来了过拟合情况。也就是换了个 ...

还有一个问题，你换样本群体与你的用来建模的数据是不是来自一个总体的，如果不是，那误差肯定会变大。

[问答] R随机森林做二元分类遇到问题！ [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

初级信用勋章

初级热心勋章

本版微信群

[问答] R随机森林做二元分类遇到问题！ [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

初级信用勋章

初级热心勋章

本版微信群

扫码加我拉你入群