人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析与数据挖掘 › CRT 与C5.0的区别是什么？

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: czjport

6786 7

CRT 与C5.0的区别是什么？ [推广有奖]

0关注
0粉丝

初中生

80%

还不是VIP/贵宾

威望: 0 级
论坛币: 1 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 107 点
帖子: 6
精华: 0
在线时间: 32 小时
注册时间: 2008-3-28
最后登录: 2015-9-10

楼主

czjport 发表于 2011-1-8 16:20:36 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

如题希望高手指教？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：CRT 决策树

相关帖子

使用道具举报

沙发

yly861215 发表于 2011-2-28 19:06:16 |只看作者 |坛友微信交流群

同求，希望论坛的哥们顶啊

使用道具举报

藤椅

pccbanboo11

发表于 2011-3-2 16:50:45 |只看作者 |坛友微信交流群

C5.0是多叉树，CRT是二叉树；
C5.0的目标字段是分类型的，CRT的目标字段既可以是分类型的也可以是数值型的；

具体的内容如下：
一、 C 5.0算法执行效率和内存使用改进、适用大数据集
优点：
1)面对数据遗漏和输入字段很多的问题时非常稳健；
2)通常不需要很长的训练次数进行估计；
3)比一些其他类型的模型易于理解，模型推出的规则有非常直观的解释；
4)允许进行多次多于两个子组的分割。目标字段必须为分类字段。
；
分类回归树 classification and regression tree(C&RT) racoon

优点
（1）可自动忽略对目标变量没有贡献的属性变量，也为判断属性变量的重要性，减少变量数据提供参考；
（2）在面对诸如存在缺失值、变量数多等问题时C&RT 显得非常稳健（robust）；
（3）估计模型通常不用花费很长的训练时间；
(4) 推理过程完全依据属性变量的取值特点（与 C5.0不同，C&RT的输出字段既可以是数值型，也可以是分类型）
（5）比其他模型更易于理解——从模型中得到的规则能得到非常直观的解释，决策推理过程可以表示成 IF…THEN的形式
（6）目标是定类变量为分类树，若目标变量是定距变量，则为回归树；
（7）通过检测输入字段，通过度量各个划分产生的异质性的减小程度，找到最佳的一个划分。
（8）非常灵活，可以允许有部分错分成本，还可指定先验概率分布，可使用自动的成本复杂性剪枝来得到归纳性更强的树。

决策树生长的核心是确定决策树的分枝准则。
一、如何从众多的属性变量中选择一个当前的最佳分支变量；
也就是选择能使异质性下降最快的变量。
异质性的度量：GINI、TWOING、least squared deviation。
前两种主要针对分类型变量，LSD针对连续性变量。

代理划分、加权划分、先验概率

二、如何从分支变量的众多取值中找到一个当前的最佳分割点（分割阈值）。
(1) 分割阈值：
A、数值型变量——对记录的值从小到大排序，计算每个值作为临界点产生的子节点的异质性统计量。能够使异质性减小程度最大的临界值便是最佳的划分点。
B、分类型变量——列出划分为两个子集的所有可能组合，计算每种组合下生成子节点的异质性。同样，找到使异质性减小程度最大的组合作为最佳划分点。

（可以搜索的到，但是最好的答案不是很好搜到）

使用道具举报