C5.0是多叉树,CRT是二叉树;
C5.0的目标字段是分类型的,CRT的目标字段既可以是分类型的也可以是数值型的;
具体的内容如下:
一、 C 5.0算法 执行效率和内存使用改进、适用大数据集
优点:
1)面对数据遗漏和输入字段很多的问题时非常稳健;
2)通常不需要很长的训练次数进行估计;
3)比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释;
4)允许进行多次多于两个子组的分割。目标字段必须为分类字段。
;
分类回归树 classification and regression tree(C&RT) racoon
优点
(1)可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量数据提供参考;
(2)在面对诸如存在缺失值、变量数多等问题时C&RT 显得非常稳健(robust);
(3)估计模型通常不用花费很长的训练时间;
(4) 推理过程完全依据属性变量的取值特点(与 C5.0不同,C&RT的输出字段既可以是数值型,也可以是分类型)
(5)比其他模型更易于理解——从模型中得到的规则能得到非常直观的解释,决策推理过程可以表示成 IF…THEN的形式
(6)目标是定类变量为分类树,若目标变量是定距变量,则为回归树;
(7)通过检测输入字段,通过度量各个划分产生的异质性的减小程度,找到最佳的一个划分。
(8)非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自动的成本复杂性剪枝来得到归纳性更强的树。
决策树生长的核心是确定决策树的分枝准则。
一、 如何从众多的属性变量中选择一个当前的最佳分支变量;
也就是选择能使异质性下降最快的变量。
异质性的度量:GINI、TWOING、least squared deviation。
前两种主要针对分类型变量,LSD针对连续性变量。
代理划分、加权划分、先验概率
二、 如何从分支变量的众多取值中找到一个当前的最佳分割点(分割阈值)。
(1) 分割阈值:
A、数值型变量——对记录的值从小到大排序,计算每个值作为临界点产生的子节点的异质性统计量。能够使异质性减小程度最大的临界值便是最佳的划分点。
B、分类型变量——列出划分为两个子集的所有可能组合,计算每种组合下生成子节点的异质性。同样,找到使异质性减小程度最大的组合作为最佳划分点。
( 可以搜索的到,但是最好的答案不是很好搜到)
|