随机森林法是一种组合分类方法,该法的基本组成就是决策树。决策树是一种由结点与向量组成的层次结构。决策树包含了三种结点:根结点、内结点、终结点。其中,根结点有并且仅有一个,它是训练数据的总体集合。
决策树的每个内结点都是一个分支问题的起点。这些内结点能够将达到该点处的样本数据按照特定属性进行分类处理。此外,每个终结点是带有分类标签的数据集合。这样,任何一条从决策树的根结点到终结点的路径就是一个判别规则。
决策树采用了自顶向下、逐次展开的算法,每个内结点选择分类结果最好的属性,从而实现将到达该点的子样本数据分类成多组。这样的过程持续进行,直至该决策树能够准确地分类全部训练集的数据。
决策树算法的核心问题是,选择能够产生优化分类效果的类属性。选择类属性的标准较多,比如:信息增益、信息增益比、Gini索引等;与此相应,属性选择方法有:D3、C4.5、CART等。
(一点心得,请高人指点 O(∩_∩)O~)
欲知晓了解更多:数据挖掘现场班https://bbs.pinggu.org/thread-1409460-1-1.html