楼主: 猴哥剃须刀
66789 18

[问答] R语言随机森林重要性指标的问题 [推广有奖]

11
caisinong 发表于 2016-5-3 14:44:06
jgchen1966 发表于 2015-7-30 17:07
从一次randomForest 运行得到这两变量重要指标,只能作为“定性”探索变量用,无法作为定量决策“变量取舍 ...
请问一下,这里的定性探索是指这些importance能够给出一个参考性的建议,但是并不是对特征严格的排序,我理解得对吗?
试过Boruta,发现(应该是样本太少)结果非常不理想,几千个特征只留下十几个,完全没有办法继续做了。
最后发现,最成功的是直接根据词频人工选出一些特征来,但因为要做论文,感觉说人工筛选站不住脚……请问您有什么推荐的应该去了解的知识吗?找了好多,有点捉急。
谢谢!

12
jgchen1966 发表于 2016-5-3 16:06:39
caisinong 发表于 2016-5-3 14:44
请问一下,这里的定性探索是指这些importance能够给出一个参考性的建议,但是并不是对特征严格的排序,我 ...
应很可惜的,randomForest的作者,Leo Breiman ,在randomForest 的概率与统计性质完全说明清楚前,去世了!!
虽研究不少,但至今没有一个满意的对randomForest 统计与概率的理论分析。。因此,其结果,只能被 认作一个“数据探索”性质!!!若有志这方面研究,恐要从测度理论、概率理论等着手了!!!

13
caisinong 发表于 2016-5-3 20:38:22
jgchen1966 发表于 2016-5-3 16:06
应很可惜的,randomForest的作者,Leo Breiman ,在randomForest 的概率与统计性质完全说明清楚前,去世了 ...
好吧……这可真是@_@
anyway谢谢您!

14
13588163648 学生认证  发表于 2017-10-24 13:47:25
Mr.circle 发表于 2015-8-6 11:24
谢谢,有空研究下你说的包valSel等
你好,你提到的varSel包可以介绍一下吗?在R中用install.package安装不了呢

15
13588163648 学生认证  发表于 2017-10-24 13:49:13
jgchen1966 发表于 2015-7-30 17:07
从一次randomForest 运行得到这两变量重要指标,只能作为“定性”探索变量用,无法作为定量决策“变量取舍 ...
你好,你提到的varSel包可以介绍一下吗?在R中用install.package安装不了呢

16
fankaiqing 在职认证  发表于 2022-3-16 12:30:58
datakungfu 发表于 2014-12-16 10:47
你说的是对的啊.

%IncMSE 是 increase in MSE, 就是对每一个变量 比如 X1 随机赋值, 如果 X1重要的话,  ...
如果 X1重要的话, 预测的误差会增大,所以 误差的增加就等同于 准确性的减少 ---- 如果某个X重要的话,把它加进模型,预测误差会增加?那么这个X还要了做啥?

是不是应该是如果把某个X放进模型,能使预测误差降低或者减小,才会被保留在模型中?

你的说法颠覆了我所学的常识耶

17
fankaiqing 在职认证  发表于 2022-3-16 12:37:20
datakungfu 发表于 2014-12-16 10:47
你说的是对的啊.

%IncMSE 是 increase in MSE, 就是对每一个变量 比如 X1 随机赋值, 如果 X1重要的话,  ...
%IncMSE是MDA,mean decrese accuracy,代表随机打乱一个特征,模型的准确度下降的百分比,越高表明特征越重要。IncNodePurity是MDG,mean decrease gini,代表使用某一个特征进行分裂时,GINI系数下降的平均幅度,越高表明基于该特征的分裂质量越好。通常来说建议用MDA,因为MDG在特征类型不一致(有分类有连续),以及特征变化范围相差较大时,结果的bias更加显著。
已有 1 人评分论坛币 学术水平 收起 理由
jiangbeilu + 20 + 1 精彩帖子

总评分: 论坛币 + 20  学术水平 + 1   查看全部评分

18
俺也一样. 发表于 2022-9-4 18:43:25
fankaiqing 发表于 2022-3-16 12:37
%IncMSE是MDA,mean decrese accuracy,代表随机打乱一个特征,模型的准确度下降的百分比,越高表明特征越 ...
您好,关于随机森林MDA,如果改变打乱一个特征的顺序后,模型的准确度反而升高了,那么这种情况是不是也应该表明这个特征比较重要,所以是不是应该用MDA的绝对值来评估这个特征的重要性呢?

19
nxfwh 发表于 2023-1-10 15:10:53
chen0hui 发表于 2015-3-26 17:18
那如果%IncMSE存在负数是什么意思呢?
您好,请问%IncMSE存在负值的问题您弄清楚了吗?是否可以指教

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-30 05:03