人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › SPSS论坛 › 请问哪里可以查到spss决策树的后剪枝CCP算法？

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: forex95

5075 2

[学习资料] 请问哪里可以查到spss决策树的后剪枝CCP算法？ [推广有奖]

2关注
32粉丝

副教授

17%

还不是VIP/贵宾

威望: 0 级
论坛币: 5913 个
通用积分: 8.7300
学术水平: 18 点
热心指数: 23 点
信用等级: 14 点
经验: 14239 点
帖子: 418
精华: 0
在线时间: 775 小时
注册时间: 2010-3-6
最后登录: 2023-12-23

楼主

forex95 发表于 2012-5-10 10:04:11 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

这个是我能找到的算法，但是我用软件实现后，决策树是对的，但是剪枝后就对不上了，那位高人指点一下。
后剪枝（CCP）

可用以下评价标准选出一种最好的剪枝形式，即

式中：M是剪枝树分类错误增加数；N是总样本数；L(S)是剪枝树被去掉的叶结点数。

例5.1 对24个样本得到的决策树进行剪枝。预测变量有outlook、temperature、humidity、windy。

第一次剪枝，即的获取：（注：红色为预测变量取值，T为好叶子结点；F为坏叶子结点）

Outlook

Sunny overcast rain

Humidity

Temperature

Hot mind cool

Normal high

Windy

Very not

(1) 若将humidity子树转换为叶结点，其中T=4，F=5，所以humidity转换为F结点，则M=4，L(S)=2，所以有

(2) 若将windy子树转换为叶结点，其中T=1，F=1，所以windy转换为T结点和F结点一样，假设取为F结点，则M=1，L(S)=2，所以有

(3) 若将temperature子树转换为叶结点，因为在此子树中F=7，T=1，所以temperature转换为F结点，则M=1，L(S)=4，所以有

(4) 若将outlook子树转换为叶结点，其中F=12，T=12，则M=12，L(S)=7，则有

由于的值最小，所以将temperature子树变成叶结点得到 ,如图：

Outlook

Sunny overcast rain

Humidity

Normal high

第二次剪枝，即的获取

(1) 若将humidity子树转换为叶结点，其中F=5，T=4，所以humidity转换为F结点，则M=4，L(S)=2，所以有

(2) 若将outlook子树转为叶子结点，其中T=12，F=12，假设取为F结点，则M=12，L(S)=4，所以有

由于，选择去掉humidity结点，所以为

Outlook

Sunny overcast rain

第三次剪枝：由于只有一个结点，取值为F

这样就得到一系列的树，，，，现在面临的问题是如何从获得的树序列中选择最优树作为最终的决策树。可以使用两种方法进行决策树评估：

..........................................

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：SPSS PSS CCP 决策树 Outlook 算法样本 outlook windy 叶子

相关帖子

情绪只是时间的消耗品，所谓非理性行为就是对时间的量化。

使用道具举报

沙发

forex95 发表于 2012-5-10 10:19:24 |只看作者 |坛友微信交流群

测试样本评估和交叉验证评估。
测试样本评估：使用独立的测试样本
如果样本规模不大，交叉验证是一种更适合的评估方法。即K-折交互验证
若在知测中Validation为0%，那么在如上的子树中分别计算R(T_k) 其中k=0,1,2,3
R(T_k )=1/N ∑_i▒N_i
N为所获得的测试样本记录数；i遍历所有的叶子节点；N_i为每个节点错判个数
对于同一棵树，不同的数据集计算出来的误分类损失往往不同。这样计算出来的误分类损失只是一个估计值。或许存在一棵树，虽然它的误分类损失比最小误分类损失大一点点，但节点数量却少一些，而它才是最优的树。
因此，所谓的1SE规则就是默认使用一倍标准误，用户也可以自行指定多倍标准误。标准误公式如下：
SE(R(T_k))=√((R(T_k )(1-R(T_k )))/N)
其中N为所获得的测试样本记录数
该选项允许用户指定更加自由的修剪法则。标准误修剪法则让分类回归树选择最简单的树，其风险估计值接近风险最小子树的风险估计值。“乘数”表明修剪树与具有最小估计风险的子树之间的允许估计风险差异程度。
CART选择最终子树T的标准为
R(T)≤ min┬k⁡〖{R(T_k )+m×SE(R(T_k))}〗
的最简子树
出报表时输出R(T)及SE(R(T_k))，SPSS如下：

情绪只是时间的消耗品，所谓非理性行为就是对时间的量化。

使用道具举报

藤椅

绿水菊 发表于 2016-12-4 10:08:13 |只看作者 |坛友微信交流群

显示不完全，楼主能否通过WORD再发下呢，谢谢

使用道具举报

返回列表

发帖

本版微信群

加好友,备注cda
拉您进交流群

手机版 |

意见反馈 |

帮助 |

新手入门 |

用户手册 |

友情链接 |

如有投资本站、合作意向或投放广告，请联系：13661292478（刘老师）

联系客服

邮箱：service@pinggu.org 投诉或不良信息处理：（010-68466864）

京ICP备16021002-2号京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[学习资料] 请问哪里可以查到spss决策树的后剪枝CCP算法？ [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群