楼主: 何以爱情丶
13698 25

[问答] 关于R语言中随机森林是否会出现过拟合现象问题 [推广有奖]

11
harpbreeze 发表于 2015-4-14 20:53:43
何以爱情丶 发表于 2015-4-14 19:20
没有任何的learning algorithm可以彻底避免overfitting的。这是由机器学习的本质决定的,不是在技术层面可 ...
所谓过拟合不就是模型的variance急剧增大造成的么,这都说了variance能控制在一定的水平。
bias大是欠拟合了吧?

12
何以爱情丶 发表于 2015-4-14 21:20:02
harpbreeze 发表于 2015-4-14 20:53
所谓过拟合不就是模型的variance急剧增大造成的么,这都说了variance能控制在一定的水平。
bias大是欠拟 ...
我也没看懂,因为刚入手,我只想知道RF到底会不会出现过拟合问题?我的数据集也比较小,训练集才3000组,有人说数据集小了也会引起RF树的量多时过拟合

13
何以爱情丶 发表于 2015-4-14 21:24:32
harpbreeze 发表于 2015-4-14 20:41
我按照楼主说得,选择ntree=50,但是第四类依旧都分错了。
结果是:
QQ截图20150414143416.png
我这全部分类正确啊。你是不是给test50加了标签?

14
harpbreeze 发表于 2015-4-14 21:30:36
何以爱情丶 发表于 2015-4-14 21:24
我这全部分类正确啊。你是不是给test50加了标签?
直接打印,出来的应该是用训练集的数据直接跑模型,再和训练集的class比较,势必准确率会高。

你试试ntree=50时候,计算下用test50测试集去跑跑,得到的应该是和我一样的。

所以这个可能不是过拟合的问题,你试试增加变量吧。

我也新手,大家一起学习

15
何以爱情丶 发表于 2015-4-15 08:27:15
harpbreeze 发表于 2015-4-14 21:30
直接打印,出来的应该是用训练集的数据直接跑模型,再和训练集的class比较,势必准确率会高。

你试试n ...
训练集是3000组数据,而测试集是600组数据,print显示的是3000组数据的训练精度,predict结果是600组数据的预测结果,是不是这么一回事?

16
harpbreeze 发表于 2015-4-15 11:18:17
奥。。。我懂你意思了。。。

不过我还是不能重现你的结果...
捕获.JPG

17
何以爱情丶 发表于 2015-4-15 20:58:46
harpbreeze 发表于 2015-4-15 11:18
奥。。。我懂你意思了。。。

不过我还是不能重现你的结果...
你用的testset是怎么修改的

18
harpbreeze 发表于 2015-4-16 11:12:54
> testset <-read.table("D:\\test50.txt")
> names(testset)=c("f1","f2","f3","f4","f5","f6","f7","f8","f9","f10","f11","f12","f13","f14","f15","f16","f17","f18","f19","f20","f21","f22","f23","f24","f25")
>

没有改,直接导进去的呢

19
何以爱情丶 发表于 2015-4-16 14:02:01
harpbreeze 发表于 2015-4-16 11:12
> testset  names(testset)=c("f1","f2","f3","f4","f5","f6","f7","f8","f9","f10","f11","f12","f13","f1 ...
这么神奇?我后来给test50加了标签,形成test50n,再跑程序 5161819n50.png
在ntree=50的情况下,50,40,30dB噪声环境下都分类正确,只有20dB分类有错,set.seed设置111

20
何以爱情丶 发表于 2015-4-16 14:05:14
harpbreeze 发表于 2015-4-16 11:12
> testset  names(testset)=c("f1","f2","f3","f4","f5","f6","f7","f8","f9","f10","f11","f12","f13","f1 ...
加QQ交流吧?方便点,806990279

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-30 12:30