缺失值处理:(C4.5适用)
针对含有缺失值的数据,使用决策树模型可以对缺失值进行分类,无需预处理。
1.1 根节点选取:
首先针对每个属性,分别计算其信息增益。如果某个属性其中含有缺失值,则去除缺失值保留剩下的属性数据子集,计算其信息增益。最后比较各属性信息增益的大小,选出根节点。
1.2 子节点选取:
若选择的根节点属性中包含缺失值,如图:

若根节点为纹理,分为三类(清晰,稍糊,模糊)。
其中8和10为缺失值,所以对每一个分类(清晰,稍糊,模糊)都含有8和10 ,但是8和10的权重更改为每一类所对应的权重。
然后再计算其对应的信息增益,选择下一个子节点。
1.3 叶子节点:
一层一层计算信息增益,直到所分的节点中所有的样本集的所属类别再无差异即停止。
注意:若所划分的叶子节点的样本集为空,则其所属类别为父节点中的样本集多数类的类别。


雷达卡



京公网安备 11010802022788号







