文本分析用randomforest的importance筛选变量后，错误率上升。

1关注
0粉丝

已卖：182份资源

大专生

40%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 101 个
通用积分: 0.1914
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 316 点
帖子: 18
精华: 0
在线时间: 73 小时
注册时间: 2010-10-2
最后登录: 2022-10-24

楼主

caisinong 发表于 2016-4-29 19:50:15 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

做的是文本分析，第一次做的有3000+个变量，结果如下

OOB estimate of  error rate: 27.92%
Confusion matrix:
   多非多 class.error
多 183 81 0.3068182
非多  77  225 0.2549669

第一次做好后用“多”和“非多”类importance排序，各取前300，去重，去掉无意义的词语（如一些英文字母、数字等，符号等，stop word没有包含到的），结果却成了下面这样。OOB提高不少。

OOB estimate of  error rate: 32.51%
Confusion matrix:
   多非多 class.error
多 144  120 0.4545455
非多  64  238 0.2119205

请问这是怎么回事呢？我的操作上有没有什么问题？非常感谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：randomForest importance Forest random import matrix error

[问答] 文本分析用randomforest的importance筛选变量后，错误率上升。 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[问答] 文本分析用randomforest的importance筛选变量后，错误率上升。 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群