楼主: forex95
5075 2

[学习资料] 请问哪里可以查到spss决策树的后剪枝CCP算法? [推广有奖]

  • 2关注
  • 32粉丝

副教授

17%

还不是VIP/贵宾

-

威望
0
论坛币
5913 个
通用积分
8.7300
学术水平
18 点
热心指数
23 点
信用等级
14 点
经验
14239 点
帖子
418
精华
0
在线时间
775 小时
注册时间
2010-3-6
最后登录
2023-12-23

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
这个是我能找到的算法,但是我用软件实现后,决策树是对的,但是剪枝后就对不上了,那位高人指点一下。
后剪枝(CCP

可用以下评价标准选出一种最好的剪枝形式,即

a=

式中:M是剪枝树分类错误增加数;N是总样本数;L(S)是剪枝树被去掉的叶结点数。

5.1 24个样本得到的决策树 进行剪枝。预测变量有outlooktemperaturehumiditywindy

第一次剪枝,即 的获取:(注:红色为预测变量取值,T为好叶子结点;F为坏叶子结点)

Outlook


Sunny        overcast         rain

T

Humidity

Temperature


                                Hot   mind   cool

          Normal     high

T

Windy

F

F

F


                           Very    not

                          

F

F


(1)   若将humidity子树转换为叶结点,其中T=4F=5,所以humidity转换为F结点,则M=4L(S)=2,所以有

(2)   若将windy子树转换为叶结点,其中T=1F=1,所以windy转换为T结点和F结点一样,假设取为F结点,则M=1L(S)=2,所以有

(3)   若将temperature子树转换为叶结点,因为在此子树中F=7T=1,所以temperature转换为F结点,则M=1L(S)=4,所以有

(4)   若将outlook子树转换为叶结点,其中F=12T=12,则M=12L(S)=7,则有

由于 的值最小,所以将temperature子树变成叶结点得到 ,如图:

Outlook


             Sunny    overcast  rain

T

Humidity

F


                Normal     high

T

F


第二次剪枝,即 的获取

(1)   若将humidity子树转换为叶结点,其中F=5T=4,所以humidity转换为F结点,则M=4L(S)=2,所以有

(2)   若将outlook子树转为叶子结点,其中T=12F=12,假设取为F结点,则M=12L(S)=4,所以有

由于 ,选择去掉humidity结点,所以 为

Outlook


                     Sunny   overcast   rain

T

F

F


第三次剪枝:由于 只有一个结点,取值为F

这样就得到一系列的树 , , , ,现在面临的问题是如何从获得的树序列中选择最优树作为最终的决策树。可以使用两种方法进行决策树评估:

..........................................
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:SPSS PSS CCP 决策树 Outlook 算法 样本 outlook windy 叶子

情绪只是时间的消耗品,所谓非理性行为就是对时间的量化。
沙发
forex95 发表于 2012-5-10 10:19:24 |只看作者 |坛友微信交流群
测试样本评估和交叉验证评估。
测试样本评估:使用独立的测试样本
如果样本规模不大,交叉验证是一种更适合的评估方法。即K-折交互验证
若在知测中Validation为0%,那么在如上的子树中分别计算R(T_k) 其中k=0,1,2,3
R(T_k )=1/N ∑_i▒N_i
N为所获得的测试样本记录数;i遍历所有的叶子节点;N_i为每个节点错判个数
对于同一棵树,不同的数据集计算出来的误分类损失往往不同。这样计算出来的误分类损失只是一个估计值。或许存在一棵树,虽然它的误分类损失比最小误分类损失大一点点,但节点数量却少一些,而它才是最优的树。
因此,所谓的1SE规则就是默认使用一倍标准误,用户也可以自行指定多倍标准误。标准误公式如下:
SE(R(T_k))=√((R(T_k )(1-R(T_k )))/N)
其中N为所获得的测试样本记录数
该选项允许用户指定更加自由的修剪法则。标准误修剪法则让分类回归树选择最简单的树,其风险估计值接近风险最小子树的风险估计值。“乘数”表明修剪树与具有最小估计风险的子树之间的允许估计风险差异程度。
CART选择最终子树T的标准为
R(T)≤  min┬k⁡〖{R(T_k )+m×SE(R(T_k))}〗
的最简子树
出报表时输出R(T)及SE(R(T_k)),SPSS如下:
情绪只是时间的消耗品,所谓非理性行为就是对时间的量化。

使用道具

藤椅
绿水菊 发表于 2016-12-4 10:08:13 |只看作者 |坛友微信交流群
显示不完全,楼主能否通过WORD再发下呢,谢谢

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-23 16:34