楼主: 晓茜
12395 10

[学习分享] 请教关于R中randomForest程序包的问题 [推广有奖]

  • 0关注
  • 1粉丝

初中生

66%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
269 点
帖子
16
精华
0
在线时间
13 小时
注册时间
2013-6-30
最后登录
2013-12-31

楼主
晓茜 发表于 2013-7-1 09:28:34 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我想问一下RF用的是什么交叉验证方法呢?是jackknife还是k-fold?计算结果中有一行No. of variables tried at each split: 2,这是什么意思?是指的是2-fold交叉验证么?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:randomForest Forest random rand Rest 程序

回帖推荐

vincenhe 发表于6楼  查看完整内容

第一个图不能确定mtry就用14的,当然那算法上或许真的是,可你写文章的话这图用处不大。 另外tuneRF的结果貌似不是太consistent 你下面rfcv的不就是挺好啊,那图基本可以说用18,或者19了。 当然你写文章出图的话plot上standard error,然后smooth一点的线,那就很好了

沙发
vincenhe 发表于 2013-7-2 03:49:12
是mtry吗?
应该就不是K-FOLD的问题了,是每棵树里面的参数

藤椅
晓茜 发表于 2013-7-4 16:19:29
vincenhe 发表于 2013-7-2 03:49
是mtry吗?
应该就不是K-FOLD的问题了,是每棵树里面的参数
下载RF包的时候有一片PDF说明,专门有个板块是:Random Forest Cross-Valdidation for feature selection,我按照这个给我的数据画出了一个图: QQ图片20130704160437.jpg   但是具体怎么看不太懂,求指教~我是设置了500棵树,我预测的准确率是92.98%,我猜想这是表示在接近20棵树的时候结果最优吗?我本科是学生物的,现在做生物统计,困难重重的,也找不到什么有用的参考书,真心感谢有这个论坛~

板凳
vincenhe 发表于 2013-7-5 02:25:51
No. of variables tried at each split 就是mtry了,这个是random forest 的一个参数,需要tune的。

这个图就是CV试了各个mrtry的值后得到的cv-error,按这图的话你可以设定mtry为20去run全部数据,应该就是最优化的设定了。
这个图已经是500课树的了。
mtry是每棵树每个split的时候randomly selected的variable cadidate。
这个是random forest唯一要tune的参数啦

PS:话说RF包行random forest快吗?

报纸
晓茜 发表于 2013-7-5 15:30:35
vincenhe 发表于 2013-7-5 02:25
No. of variables tried at each split 就是mtry了,这个是random forest 的一个参数,需要tune的。

这个 ...
谢谢啦,RF运行挺快的,同样的数据,我用knn计算需要4个小时,用RF也就20分钟。
我是学生物的,对R不太熟悉,请您帮我看一下以下的说明对吗?谢谢
首先我用tuneRF确定mtry: tuneRF.jpg
根据这个图,可以让mtry=14.可是有个问题,就是要用命令fgl.res <- tuneRF(fgl[,-10], fgl[,10], stepFactor=1.5),这里我不清楚那个-10和10,还有stepFactor是根据什么确定的;
R里还有个rfcv,可以作图如下: QQ图片20130704160437.jpg
根据这个图可以让n.var=20,这个是说明文件中对于n.var的解释:n.var :vector of number of variables used at each step,求指教这怎么理解呢~


地板
vincenhe 发表于 2013-7-6 01:59:18
晓茜 发表于 2013-7-5 15:30
谢谢啦,RF运行挺快的,同样的数据,我用knn计算需要4个小时,用RF也就20分钟。
我是学生物的,对R不太熟 ...
第一个图不能确定mtry就用14的,当然那算法上或许真的是,可你写文章的话这图用处不大。
另外tuneRF的结果貌似不是太consistent

你下面rfcv的不就是挺好啊,那图基本可以说用18,或者19了。
当然你写文章出图的话plot上standard error,然后smooth一点的线,那就很好了

7
晓茜 发表于 2013-7-6 21:55:06
vincenhe 发表于 2013-7-6 01:59
第一个图不能确定mtry就用14的,当然那算法上或许真的是,可你写文章的话这图用处不大。
另外tuneRF的结 ...
谢谢啦!第一次写文章,真是不知道该加点什么了,总觉得越全越好了~

8
vincenhe 发表于 2013-7-7 09:26:06
晓茜 发表于 2013-7-6 21:55
谢谢啦!第一次写文章,真是不知道该加点什么了,总觉得越全越好了~
加油。

还可以plot一个图,显示每棵树的错误的曲线,然后加上几种不同的mtry的曲线,这样又骗了一幅图,写多一大段解释,呵呵

9
晓茜 发表于 2013-7-8 11:26:26
vincenhe 发表于 2013-7-7 09:26
加油。

还可以plot一个图,显示每棵树的错误的曲线,然后加上几种不同的mtry的曲线,这样又骗了一幅图 ...
谢谢!

10
晓茜 发表于 2013-7-8 11:26:26
vincenhe 发表于 2013-7-7 09:26
加油。

还可以plot一个图,显示每棵树的错误的曲线,然后加上几种不同的mtry的曲线,这样又骗了一幅图 ...
谢谢!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-5 15:33