楼主: 若の渡2.0
4668 11

[问答] R随机森林做二元分类遇到问题! [推广有奖]

  • 2关注
  • 1粉丝

准贵宾(月)

本科生

28%

还不是VIP/贵宾

-

威望
0
论坛币
997 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
1458 点
帖子
44
精华
0
在线时间
110 小时
注册时间
2012-12-15
最后登录
2018-9-27

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
输入的变量全是连续数值,有15个。输出的变量为是否故障(0-1)。样本总数是80左右,正负样本各占一半。出现以下问题:

1)不论多少树,准确率都低于40%,也就时低于随机选择;

2)树越多准确率越低。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:随机森林 准确率

沙发
qiu435 发表于 2017-10-25 11:03:17 |只看作者 |坛友微信交流群
样本容量太小,经过抽样后构建的训练集已已经无法反映原始数据的信息。最后的办法就是增加样本容量。如果无法增加样本容量,替代的方法就是把数据复制3~5次,当作重复,会明显改善预测准确率,虽然这样做可能不是很对。

使用道具

藤椅
若の渡2.0 在职认证  发表于 2017-10-25 11:15:57 |只看作者 |坛友微信交流群
qiu435 发表于 2017-10-25 11:03
样本容量太小,经过抽样后构建的训练集已已经无法反映原始数据的信息。最后的办法就是增加样本容量。如果无 ...
谢谢您!样本少造成随机森林分类准确率无法随着树的增多而提高。我不明白为什么效果会低于人为瞎选呢(50%),换个思路,准确率低于40%,只要把正负预测的倒过来你不就提高到60%了吗,为什么算法不能主动这样 做。

使用道具

板凳
jameschin007 发表于 2017-10-25 12:07:02 |只看作者 |坛友微信交流群
若の渡2.0 发表于 2017-10-25 11:15
谢谢您!样本少造成随机森林分类准确率无法随着树的增多而提高。我不明白为什么效果会低于人为瞎选呢(50 ...
最好看一下这些变量的重要度。我猜测可能很多变量对预测起不到作用。
那么很多树在选取这些变量时,效果就差。
随机森林类似投票机制,学渣多了,学霸的声音被盖住了。

使用道具

报纸
qiu435 发表于 2017-10-25 13:50:28 |只看作者 |坛友微信交流群
若の渡2.0 发表于 2017-10-25 11:15
谢谢您!样本少造成随机森林分类准确率无法随着树的增多而提高。我不明白为什么效果会低于人为瞎选呢(50 ...
随机森林给出的预测率并不是准确率,而是OBB误差率,即使用随机抽样剩下的袋外数据进行预测,用于评估模型的分类效果的,是集合了所有树的平均值的。由于随机森林采用bootdtrap有放回的抽样,样本太小,会用可能一些观测值未被抽到,造成OBB误差太高。试下样本复制几次,作为重复看看。我也遇到过这样的情况。

使用道具

地板
qiu435 发表于 2017-10-25 13:54:20 |只看作者 |坛友微信交流群
jameschin007 发表于 2017-10-25 12:07
最好看一下这些变量的重要度。我猜测可能很多变量对预测起不到作用。
那么很多树在选取这些变量时,效果 ...
含有重要度的低的变量并不会影响结果,但是对于每个节点上使用多少个变量,即mtry参数需要通过逐次计算进行优化。

使用道具

7
jameschin007 发表于 2017-10-25 14:02:24 |只看作者 |坛友微信交流群
qiu435 发表于 2017-10-25 13:54
含有重要度的低的变量并不会影响结果,但是对于每个节点上使用多少个变量,即mtry参数需要通过逐次计算进 ...
但是如果有大量重要度不高的变量,与预测关系不相关的变量存在,会影响预测的准确率吧。
我做feature  selection 的时候, 很明显有一个预测率随着feature逐渐减少的 预测效果逐步提高,然后再下降的过程。

使用道具

8
若の渡2.0 在职认证  发表于 2017-10-30 09:49:19 |只看作者 |坛友微信交流群
qiu435 发表于 2017-10-25 13:50
随机森林给出的预测率并不是准确率,而是OBB误差率,即使用随机抽样剩下的袋外数据进行预测,用于评估模型 ...
我将样本重复3、4次后,误差率确实小了很多,甚至达到了5%之内,但是随着带来了过拟合情况。也就是换了个样本群体,误差率陡升!

使用道具

9
qiu435 发表于 2017-10-31 11:20:06 |只看作者 |坛友微信交流群
若の渡2.0 发表于 2017-10-30 09:49
我将样本重复3、4次后,误差率确实小了很多,甚至达到了5%之内,但是随着带来了过拟合情况。也就是换了个 ...
那是必然的,这个只是样本太小的替代方法。最好的方法还是扩大样本容量。还有一种可能就是你的数据预测变量的解释率本来就不高,或者说预测变量与响应变量相关性不高

使用道具

10
qiu435 发表于 2017-10-31 11:22:51 |只看作者 |坛友微信交流群
若の渡2.0 发表于 2017-10-30 09:49
我将样本重复3、4次后,误差率确实小了很多,甚至达到了5%之内,但是随着带来了过拟合情况。也就是换了个 ...
还有一个问题,你换样本群体与你的用来建模的数据是不是来自一个总体的,如果不是,那误差肯定会变大。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-21 10:46