后剪枝(CCP)
可用以下评价标准选出一种最好的剪枝形式,即
a=
式中:M是剪枝树分类错误增加数;N是总样本数;L(S)是剪枝树被去掉的叶结点数。
例5.1 对24个样本得到的决策树 进行剪枝。预测变量有outlook、temperature、humidity、windy。
第一次剪枝,即 的获取:(注:红色为预测变量取值,T为好叶子结点;F为坏叶子结点)
Outlook |
Sunny overcast rain
T |
Humidity |
Temperature |
Hot mind cool
Normal high
T |
Windy |
F |
F |
F |
Very not
F |
F |
(1) 若将humidity子树转换为叶结点,其中T=4,F=5,所以humidity转换为F结点,则M=4,L(S)=2,所以有
(2) 若将windy子树转换为叶结点,其中T=1,F=1,所以windy转换为T结点和F结点一样,假设取为F结点,则M=1,L(S)=2,所以有
(3) 若将temperature子树转换为叶结点,因为在此子树中F=7,T=1,所以temperature转换为F结点,则M=1,L(S)=4,所以有
(4) 若将outlook子树转换为叶结点,其中F=12,T=12,则M=12,L(S)=7,则有
由于 的值最小,所以将temperature子树变成叶结点得到 ,如图:
Outlook |
Sunny overcast rain
T |
Humidity |
F |
Normal high
T |
F |
第二次剪枝,即 的获取
(1) 若将humidity子树转换为叶结点,其中F=5,T=4,所以humidity转换为F结点,则M=4,L(S)=2,所以有
(2) 若将outlook子树转为叶子结点,其中T=12,F=12,假设取为F结点,则M=12,L(S)=4,所以有
由于 ,选择去掉humidity结点,所以 为
Outlook |
Sunny overcast rain
T |
F |
F |
第三次剪枝:由于 只有一个结点,取值为F
这样就得到一系列的树 , , , ,现在面临的问题是如何从获得的树序列中选择最优树作为最终的决策树。可以使用两种方法进行决策树评估:
..........................................