楼主: 我的素质低
3318 4

[R] 〖素质笔记〗随机森林(Random)学习笔记 [推广有奖]

已卖:2774份资源

学术权威

83%

还不是VIP/贵宾

-

TA的文库  其他...

〖素质文库〗

结构方程模型

考研资料库

威望
8
论坛币
23391 个
通用积分
28308.6707
学术水平
2705 点
热心指数
2881 点
信用等级
2398 点
经验
228576 点
帖子
2968
精华
52
在线时间
2175 小时
注册时间
2012-11-24
最后登录
2024-1-13

一级伯乐勋章 初级学术勋章 初级热心勋章 初级信用勋章 中级热心勋章 中级学术勋章 中级信用勋章 高级学术勋章 高级热心勋章 高级信用勋章 特级学术勋章

楼主
我的素质低 学生认证  发表于 2015-8-5 16:47:08 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
一、随机森林基本信息



1、定义

    随机森林(Random  Forest)与传统的决策树相比,有更强的泛化能力和更好的分类效果,它的产生,是随机理论在实际应用中取得的的又一成果。


2、随机森林的优缺点

    优点。(1)不必担心过度拟合;

    (2)适用于数据集中存在大量未知特征;

    (3)能够估计哪个特征在分类中更重要;

    (4)具有很好的抗噪声能力;

    (5)算法容易理解;

    (6)可以并行处理。


    缺点。(1)对小量数据集和低维数据集的分类不一定可以得到很好的效果。

(2)执行速度虽然比Boosting等快,但是比单个的决策树慢很多。

(3)可能会出现一些差异度非常小的树,淹没了一些正确的决策。



二、随机森林生成步骤



    1、从原始训练数据集中,应用bootstrap方法有放回地随机抽取k个新的自助样本集,并由此构建k棵分类回归树,每次未被抽到的样本组成了K个袋外数据(out-of-bag,BBB)。


    2、设有n 个特征,则在每一棵树的每个节点处随机抽取mtry 个特征,通过计算每个特征蕴含的信息量,特征中选择一个最具有分类能力的特征进行节点分裂。


    3、每棵树最大限度地生长, 不做任何剪裁


    4、将生成的多棵树组成随机森林, 用随机森林对新的数据进行分类, 分类结果按树分类器投票多少而定。



三、变量重要性度量



     随机森林程序通常提供4种变量重要性度量,其中importance()函数就属于其中。其中平均精度下降(MeanDecreaseAccuracy”)重要性评分;Gini指数。


1、变量重要性测度

     定义为袋外数据自变量值发生轻微扰动后的分类正确率与扰动前分类正确率的平均减少量。

    (1):对于每棵决策树,利用袋外数据进行预测,将袋外数据的预测误差将记录下来。其每棵树的误差是:vote1,vote2····,voteb;

    (2):随机变换每个预测变量,从而形成新的袋外数据,再利用袋外数据进行验证,其每个变量的误差是:vote11,vote12,···,vote1b。

     (3):对于某预测变量来说,计算其重要性是变换后的预测误差与原来相比的差的均值。

     r语言中代码:

  

  1.   rf <- randomForest(Species ~ ., data=a, ntree=100, proximity=TRUE,importance=TRUE)
复制代码



    2、Gini指数法

    gini指数表示节点的纯度,gini指数越大纯度越低。gini值平均降低量表示所有树的变量分割节点平均减小的不纯度。对于变量重要度衡量,步骤如同前面介绍,将变量数据打乱,gini指数变化的均值作为变量的重要程度度量。

gini(T)=1−∑j=1np2j


    3、重要性绘图(varImpPlot(rf)函数)

    利用芍药花数据,可以看到这四个变量的重要性排序是一样的。


image-0001.jpg

image-0002.jpg

image-0003.jpg

image-0004.jpg




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:random 学习笔记 随机森林 rand RAN Random 森林

已有 2 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
xddlovejiao1314 + 100 + 100 + 5 + 5 + 5 精彩帖子
niuniuyiwan + 60 + 60 + 5 + 5 + 5 精彩帖子

总评分: 经验 + 160  论坛币 + 160  学术水平 + 10  热心指数 + 10  信用等级 + 10   查看全部评分

本帖被以下文库推荐

心晴的时候,雨也是晴;心雨的时候,晴也是雨!
扣扣:407117636,欢迎一块儿吐槽!!

沙发
xddlovejiao1314 学生认证  发表于 2015-8-5 18:19:22
好贴,谢谢分享。

藤椅
niuniuyiwan 在职认证  发表于 2015-8-5 19:00:20
随机森林与决策树,R真是无所不能,好帖,谢谢分享。
已有 1 人评分热心指数 收起 理由
我的素质低 + 3 精彩帖子

总评分: 热心指数 + 3   查看全部评分

板凳
伊娃的独角兽 发表于 2016-3-19 16:31:58
很好,找到想要的。谢谢。

报纸
小花fighting 发表于 2017-8-24 08:51:21
谢谢分享!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-30 13:48