楼主: yaoqsm321
57207 80

[问答] 随机森林过拟合问题,在训练集上表现很好,在测试集上的表现很差 [推广有奖]

31
yaoqsm321 发表于 2016-12-12 11:58:58
jameschin007 发表于 2016-12-12 11:37
随机森林应该是适应性最强的算法了。
feature 都是什么类型的?
你有查过 importance 吗?考虑去除一些 ...
给你看看我的数据吧,列名为 i 的那一列代表的是分类变量,是星座的分类,其他0和1和2的都是分类变量,其余是连续变量

32
yaoqsm321 发表于 2016-12-12 11:59:48
@jameschin007

33
yaoqsm321 发表于 2016-12-12 12:08:09
jameschin007 发表于 2016-12-9 14:02
3
4
5

这是我查的重要性

             0           1 MeanDecreaseAccuracy MeanDecreaseGini
a    0.5486983 -1.28946726          -0.97125561       7.86238877
b    5.6623997  1.22919835           3.40623045      12.33510816
c    1.9734485  2.04787132           2.82717182       3.47638176
d    0.0000000  0.00000000           0.00000000       0.01322540
e   -1.0010015  0.01030375          -0.22429652       0.62104812
f    0.0000000  0.00000000           0.00000000       0.03952830
g    0.0000000  0.00000000           0.00000000       0.02576405
h   -3.4443256  2.59117236           1.10923209      14.70970428
i   -0.3190737 -1.07377810          -1.14052936      84.14242305
j    3.0352324  1.32815240           2.56026072      68.80022886
k   -9.5479204 17.55652417          14.45057280      63.55002702
l   -6.3163023 15.69150556          13.34800844      66.69910057
m    1.8560539  2.88594129           3.24417507      29.60388690
n    4.3400200  2.68143248           4.14504447       8.87866723
r    0.7599927  3.00580742           2.99993512       8.57394828
s   -2.2959512  0.78489484          -0.22484860       1.94716585
v   -4.6894105  9.92051280           7.00823751      63.89124778
w    2.0894854  7.57999566           8.09537984      27.23288572
x   -5.7706315 12.16310235           9.85948007      44.92681384
y   -6.4069283 14.87124139          11.28092608      40.14326727
z   -2.0133191  2.42061766           1.51667167      10.53101950
aa  -0.4398691  7.58328411           7.25403725      19.89255751
ab  -2.6933727  9.39991266           7.80619067      27.93692215
ac  -0.3229390  5.80639070           5.34141664      56.86895254
ad   4.1629668  3.32327355           4.72303506      59.33540804
ae  -0.8267050  2.08648084           1.54384686       8.94919268
af -11.7219475 19.41509895          16.18025596      50.39052255
ag   0.4324896 -1.45802822          -1.31965224       1.31220928
ah  -5.1499813  9.64528533           7.83742221      16.94006805
ai  -2.0068584  1.46066455           0.55981308       0.48827429
aj   0.6109609  1.88023791           1.93660656       4.91956129
ak  15.6164846  3.20073611           9.66798866      81.33861073
al   1.8691910  1.04634248           1.74596710       6.49020152
am  -0.9364601  1.06913665           0.57501128       5.17023920
an   2.0231252 -0.89008927           0.09606978       2.25857730
ao  -9.6967578 18.45619535          16.77989733      34.58585849
ap -10.2573697 20.91459959          18.88840818      33.27237268
aq  -9.8201754 17.48395786          16.12854997      30.69501622
ar -11.9282665 17.18365556          15.35061715      30.55733007
as  -8.9907463 17.32062423          15.92298473      31.01435442

34
jameschin007 发表于 2016-12-12 14:07:53
yaoqsm321 发表于 2016-12-12 11:59
@jameschin007
Rplot.png
做了一个LASSO回归,进行变量筛选。 基本在提示所有的变量基本无效。
误差最小的时候,0变量。。。。。。。。就是那条虚竖线。。。。。
这也解释了为什么你用决策树,只用了三个变量。 上面的横坐标是变量数量。 在4个变量的时候,误差下降,接近最低。。。

生活总有不如意,但是明天的太阳依然会升起。

35
旧时光是个美人 发表于 2016-12-12 14:41:39 来自手机
yaoqsm321 发表于 2016-12-6 16:17
模型用途:建立模型,对客户进行分类。

数据有42个自变量,其中有多分类变量、二分类变量和连续性变量, ...
楼主试下SVM或者神经网络吧,这种属性很多而且很多分类变量的,映射比较复杂。给俩建议:
1.可以按属性归一化,当然也试试不归一化的,用效果好的方法
2.用CV或者其他启发式算法进行参数优化

顺路,记得多训练几次,还有要随机划分训练和测试集。
既然随机森林效果一般,就要尝试其他方法,不要在一棵树上吊死。

36
jameschin007 发表于 2016-12-12 16:52:12
yaoqsm321 发表于 2016-12-12 12:08
这是我查的重要性

             0           1 MeanDecreaseAccuracy MeanDecreaseGini
你的决策树用的C5.0吧?

37
yaoqsm321 发表于 2016-12-12 17:13:45
jameschin007 发表于 2016-12-12 16:52
你的决策树用的C5.0吧?
决策树用的rpart包,应该是C4.5吧,按照你上边的说法,是不是这些自变量跟因变量的相关性很小,所以才导致判断不准确?

38
yaoqsm321 发表于 2016-12-12 17:15:48
旧时光是个美人 发表于 2016-12-12 14:41
楼主试下SVM或者神经网络吧,这种属性很多而且很多分类变量的,映射比较复杂。给俩建议:
1.可以按属性归 ...
我总感觉是数据本身质量不行,自变量对因变量的相关性太小,可能是这个原因导致的判断不准确,感觉决策树和随机森林已经挺好的了,如果数据不行,换其他算法,我感觉也是效果不会太好

39
yaoqsm321 发表于 2016-12-12 17:18:23
jameschin007 发表于 2016-12-12 14:07
做了一个LASSO回归,进行变量筛选。 基本在提示所有的变量基本无效。
误差最小的时候,0变量。。。。 ...
我做过一次相关性分析,基本上所有自变量与因变量的相关性都属于弱相关

40
yaoqsm321 发表于 2016-12-12 17:18:23
jameschin007 发表于 2016-12-12 14:07
做了一个LASSO回归,进行变量筛选。 基本在提示所有的变量基本无效。
误差最小的时候,0变量。。。。 ...
我做过一次相关性分析,基本上所有自变量与因变量的相关性都属于弱相关

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-26 14:01