楼主: 猴哥剃须刀
66788 18

[问答] R语言随机森林重要性指标的问题 [推广有奖]

  • 5关注
  • 0粉丝

已卖:4份资源

高中生

27%

还不是VIP/贵宾

-

威望
0
论坛币
107 个
通用积分
1.0000
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
510 点
帖子
16
精华
0
在线时间
22 小时
注册时间
2014-6-2
最后登录
2019-11-17

楼主
猴哥剃须刀 发表于 2014-6-11 17:11:19 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
用randomForest做重要性评价,得到这两个指标%IncMSE   IncNodePurity,分别是什么含义啊,哪个大神能解答下吗?我看文献上,不应该是MeanDecreaseAccuracy  MeanDecreaseGini这两个指标么?


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:随机森林 重要性 R语言 randomForest decrease 随机森林

沙发
猴哥剃须刀 发表于 2014-6-11 17:12:24
       %IncMSE IncNodePurity
X1  13.7683812     527108.15
X19 11.8023912     340549.22
X7  11.1502938     225521.64
X20  8.0903795     139326.29
X21  7.4332708      99869.59就是这种
X23  6.5527387     115132.83
X5   6.3492693     135434.25
X15  6.1880054     110466.34

藤椅
猴哥剃须刀 发表于 2014-6-11 20:33:33
没有人关注么,求解答啊

板凳
chen0hui 在职认证  学生认证  发表于 2014-10-15 15:44:17
相对重要性和节点纯度···

报纸
993481093 发表于 2014-12-15 19:31:00
最近也做到这个,同求高人讲解!

地板
datakungfu 发表于 2014-12-16 10:47:22
你说的是对的啊.

%IncMSE 是 increase in MSE, 就是对每一个变量 比如 X1 随机赋值, 如果 X1重要的话, 预测的误差会增大,所以 误差的增加就等同于 准确性的减少,所以和 MeanDecreaseAccuracy 是一个概念的.

IncNodePurity 也是一样, 你这如果是回归的话, node purity 其实就是 RSS 的减少, node purity 增加就等同于 Gini 指数的减少,也就是节点里的数据或 class 都一样, 也就是 Mean Decrease Gini.

所以和你文献中的不冲突,另外一种表达方式而已.

已有 1 人评分论坛币 收起 理由
admin_kefu + 30 根据规定进行奖励

总评分: 论坛币 + 30   查看全部评分

7
chen0hui 在职认证  学生认证  发表于 2015-3-26 17:18:07
datakungfu 发表于 2014-12-16 10:47
你说的是对的啊.

%IncMSE 是 increase in MSE, 就是对每一个变量 比如 X1 随机赋值, 如果 X1重要的话,  ...
那如果%IncMSE存在负数是什么意思呢?

8
Mr.circle 发表于 2015-7-30 14:24:42
你好,我做分类问题,importance(rf)后得到MeanDecreaseAccuracy 和MeanDecreaseGini,根据这两个指标分别对特征排序,结果很不一样,这时候应该看哪个指标?注意我做的是分类问题

9
jgchen1966 发表于 2015-7-30 17:07:46
Mr.circle 发表于 2015-7-30 14:24
你好,我做分类问题,importance(rf)后得到MeanDecreaseAccuracy 和MeanDecreaseGini,根据这两个指标分别对 ...
从一次randomForest 运行得到这两变量重要指标,只能作为“定性”探索变量用,无法作为定量决策“变量取舍之用
R 中有大量以randomForest 为基础的变量取舍决策之用的package 如Boruta valSel 等!!
但是,不管何种变量取舍的程序,在变量间存在复杂相互关系或样本数不足时,它们都很不正确的!!!
专业知识须要介入了!!

10
Mr.circle 发表于 2015-8-6 11:24:01
jgchen1966 发表于 2015-7-30 17:07
从一次randomForest 运行得到这两变量重要指标,只能作为“定性”探索变量用,无法作为定量决策“变量取舍 ...
谢谢,有空研究下你说的包valSel等

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-30 03:06