做的是文本分析,第一次做的有3000+个变量,结果如下
OOB estimate of error rate: 27.92%
Confusion matrix:
多 非多 class.error
多 183 81 0.3068182
非多 77 225 0.2549669
第一次做好后用“多”和“非多”类importance排序,各取前300,去重,去掉无意义的词语(如一些英文字母、数字等,符号等,stop word没有包含到的),结果却成了下面这样。OOB提高不少。
OOB estimate of error rate: 32.51%
Confusion matrix:
多 非多 class.error
多 144 120 0.4545455
非多 64 238 0.2119205
请问这是怎么回事呢?我的操作上有没有什么问题?非常感谢!


雷达卡




京公网安备 11010802022788号







