楼主: czjport
6786 7

CRT 与C5.0的区别是什么? [推广有奖]

  • 0关注
  • 0粉丝

初中生

80%

还不是VIP/贵宾

-

威望
0
论坛币
1 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
107 点
帖子
6
精华
0
在线时间
32 小时
注册时间
2008-3-28
最后登录
2015-9-10

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
如题 希望高手指教?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:CRT 决策树

沙发
yly861215 发表于 2011-2-28 19:06:16 |只看作者 |坛友微信交流群
同求,希望论坛的哥们顶啊

使用道具

藤椅
pccbanboo11 在职认证  发表于 2011-3-2 16:50:45 |只看作者 |坛友微信交流群
C5.0是多叉树,CRT是二叉树;
C5.0的目标字段是分类型的,CRT的目标字段既可以是分类型的也可以是数值型的;

具体的内容如下:
一、 C 5.0算法  执行效率和内存使用改进、适用大数据集               
优点:               
1)面对数据遗漏和输入字段很多的问题时非常稳健;               
2)通常不需要很长的训练次数进行估计;               
3)比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释;               
4)允许进行多次多于两个子组的分割。目标字段必须为分类字段。               

分类回归树  classification and regression tree(C&RT)  racoon                               
                               
优点                               
(1)可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量数据提供参考;                               
(2)在面对诸如存在缺失值、变量数多等问题时C&RT 显得非常稳健(robust);                               
(3)估计模型通常不用花费很长的训练时间;                               
  (4) 推理过程完全依据属性变量的取值特点(与 C5.0不同,C&RT的输出字段既可以是数值型,也可以是分类型)                               
(5)比其他模型更易于理解——从模型中得到的规则能得到非常直观的解释,决策推理过程可以表示成   IF…THEN的形式                               
(6)目标是定类变量为分类树,若目标变量是定距变量,则为回归树;                               
(7)通过检测输入字段,通过度量各个划分产生的异质性的减小程度,找到最佳的一个划分。                               
(8)非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自动的成本复杂性剪枝来得到归纳性更强的树。                               
                               
决策树生长的核心是确定决策树的分枝准则。                               
一、 如何从众多的属性变量中选择一个当前的最佳分支变量;                               
也就是选择能使异质性下降最快的变量。                               
异质性的度量:GINI、TWOING、least squared deviation。                               
前两种主要针对分类型变量,LSD针对连续性变量。                               
                               
代理划分、加权划分、先验概率                               
                               
二、 如何从分支变量的众多取值中找到一个当前的最佳分割点(分割阈值)。                               
(1) 分割阈值:                               
A、数值型变量——对记录的值从小到大排序,计算每个值作为临界点产生的子节点的异质性统计量。能够使异质性减小程度最大的临界值便是最佳的划分点。                               
B、分类型变量——列出划分为两个子集的所有可能组合,计算每种组合下生成子节点的异质性。同样,找到使异质性减小程度最大的组合作为最佳划分点。                               

( 可以搜索的到,但是最好的答案不是很好搜到)

使用道具

板凳
complicated 在职认证  发表于 2012-11-7 14:19:45 |只看作者 |坛友微信交流群
感谢解答!
密码被盗??

使用道具

报纸
bisake 发表于 2012-11-7 16:08:43 |只看作者 |坛友微信交流群
好!

使用道具

地板
guanzheng1202 发表于 2013-4-11 11:27:35 |只看作者 |坛友微信交流群
此外,我感觉两者最明显的是 CRT在预剪枝、后剪枝头、模型优化调整参数,手动设置分组变量、交互功能等方面明显强于C5.0。

使用道具

7
guanzheng1202 发表于 2013-4-11 11:37:16 |只看作者 |坛友微信交流群

使用道具

8
shadowaver 在职认证  发表于 2021-7-6 16:53:39 |只看作者 |坛友微信交流群
学习了

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-27 07:31