CART(Classification And Regression Tree)分类回归树
CHAID(Chi-squared Automatic Interaction Detector)卡方自动动交互诊断器
C5.0和CART算法思路相同:包括决策树生长和决策树修剪两个过程
主要差别体现在:
C5.0 | CART | CHAID | |
输出变量 | 只能是分类型 | 可以是分类型也可以是数值型 | 可以是分类型 也可以是数值型 |
只能建分类树 | 既可建分类树又可建回归树 | 能够建立多叉树 | |
树 | 可建多叉树 | 只能建二叉树 | 能够建立多叉树 |
确定最佳分组变量 和分割点 | 以信息熵为基础 通过计算信息增益确定 | 以Gini系数和方差作为选择依据 | 从统计显著性检验角度确定 |
决定决策树的标准 | 依据训练样本, 通过近似正态分布确定 | 依据测试样本进行修剪 | 从统计显著性检验角度确定 |
CHAID与C5.0 CART算法的区别在于:
CHAID组变量确定的依据是:输入变量与输出变量之间的相关程度,应将与输出变量最相关的输入变量作为
变量。
C5.0 CART算法选择使输出变量取值差异性下降最快的变量为最佳分组变量