楼主: caisinong
6138 4

[问答] 文本分析用randomforest的importance筛选变量后,错误率上升。 [推广有奖]

  • 1关注
  • 0粉丝

已卖:182份资源

大专生

40%

还不是VIP/贵宾

-

威望
0
论坛币
101 个
通用积分
0.1914
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
316 点
帖子
18
精华
0
在线时间
73 小时
注册时间
2010-10-2
最后登录
2022-10-24

楼主
caisinong 发表于 2016-4-29 19:50:15 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
做的是文本分析,第一次做的有3000+个变量,结果如下

OOB estimate of  error rate: 27.92%
Confusion matrix:
      多 非多 class.error
多   183   81   0.3068182
非多  77  225   0.2549669

第一次做好后用“多”和“非多”类importance排序,各取前300,去重,去掉无意义的词语(如一些英文字母、数字等,符号等,stop word没有包含到的),结果却成了下面这样。OOB提高不少。

OOB estimate of  error rate: 32.51%
Confusion matrix:
      多 非多 class.error
多   144  120   0.4545455
非多  64  238   0.2119205

请问这是怎么回事呢?我的操作上有没有什么问题?非常感谢!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:randomForest importance Forest random import matrix error

沙发
jgchen1966 发表于 2016-4-30 01:09:17
importance排序,与变量“相关性”,还是差距很远的!用importance排序筛选变量,尤其只用一次计算的结果,可能失去对依变量相关性高的自变量,是分类结果变差。用randomForest 中的importance排序筛选变量,是一个很热的研究课题,百度学术 可查到一些!!!

藤椅
caisinong 发表于 2016-4-30 14:35:17
jgchen1966 发表于 2016-4-30 01:09
importance排序,与变量“相关性”,还是差距很远的!用importance排序筛选变量,尤其只用一次计算的结果, ...
不好意思我是个小白……我搜到了random forest importance feature selection 这方面的,您说的是这个吗

板凳
jgchen1966 发表于 2016-5-1 00:01:59
caisinong 发表于 2016-4-30 14:35
不好意思我是个小白……我搜到了random forest importance feature selection 这方面的,您说的是这个吗
OK   randomforest  feature selection

报纸
caisinong 发表于 2016-5-2 01:20:28
jgchen1966 发表于 2016-5-1 00:01
OK   randomforest  feature selection
谢谢!顺藤摸瓜,恶补了许多知识

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-30 08:19