连续值处理:(C4.5适用,ID3适用)
对于属性是连续的值,需要将属性值离散化。
1)先将值从小到大排列,然后再俩俩计算其均值。作为一组数据集t。
密度为连续的值。将其从小到大排列:
算其俩俩平均值,放入集合t:
再根据信息增益公式如下:
计算t取不同划分值时的信息增益。
等等。选择最大的值为t=0.381时,信息增益最大。 然后再与其他属性的信息增益做对比,选择节点。 注意:与离散属性不同,若当前结点划分属性为连续属性,该属性还可作为其后代结点的划分属性。
楼主: zxq997
|
1444
1
[CDA] 决策树的连续值处理 |
硕士生 2%
-
|
| ||
京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明 免责及隐私声明