本人正在写一篇论文,想用随机森林来选择重要性变量,但楼主是个软件小白,不知道如何实现这一过程,所以到此来发布一个问答帖子,求助各位大神,希望能帮忙实现,有偿帮助也可以,但有以下要求:
一、实现方式为Python或R
二、我想做的是利用随机森林两阶段逐步回归筛选重要性变量,所以需要完成以下两个步骤:
1.选用相对重要性评价变量重要性,要求实现步骤如下:
(1)对所有变量计算随机森林重要性得分,按相对重要性得分降序排序
(2)将变量分为N组,每组变量数目相等
(3)保留最后一组变量排序及得分
(4)计算剩余变量随机森林重要性的分,按相对重要性得分降序排列,返回步骤(3),直到这几组变量均计算完成
(5)重复模拟100次,以100次的相对重要性得分均值作为变量重要性的得分,以及重要性排序评判标准
2.利用逐步回归筛选变量,实现步骤如下:
(1)根据改进后变量重要性排序确定的变量重要性得分,对原数据剔除该得分小于0的变量数据
(2)对剔除后的剩余变量再次进行随机森林变量重要性降序排列
(3)选择排序第一的变量,对变量做100次随机森林,计算a=OOB(误分率)
(4)加入排序中的下一个变量,做100次随机森林,计算b=OOB(误分率)
(5)若a<=b,删除加入的变量,转入步骤(4)
(6)否则,将b 赋值给a ,选择变量,重新计算现有变量重要性得分,降序排列
(7)若剔除最后一个变量,做100次随机森林,计算b=OOB
(8)若a<=b,保留该变量,转入步骤(4)
(9)否则剔除该变量,将b 赋值给a,转入步骤(4)
(10)直至遍历所有的变量,OOB最小结束。