需要用Clementine中的CART或者C5.0对一系列的数据进行处理,生成分类树。
1,需要将源数据分成训练集数据和测试集数据吗?
看Clementine自带的Demo里面的模型里没看到明显的将数据分成这两类的啊。
之前实验的时候都是把所有的数据作为训练数据输入到CART或者C5.0模型中,这样得到的树和分一部分的数据作为测试的差别大吗?
2,如果需要将数据分成训练集数据和测试集数据,怎么区分?
我看网上有好几种说法。
有的说使用字段选项的分区节点,将数据分成训练集数据和测试数据,先用训练数据得到预测模型,然后将界面右上角的模型加到测试数据后面,再添加一个分析节点。
还有种说法是说使用m-folder cross validation即交叉验证的方法。但是CART模型里面没有这个选项。C5.0有这个选项,不大清楚折叠次数怎么设置。如果要训练数据:测试数据=1:1的话,折叠次数是2吗?如果是7:3呢?预设的是10代表什么含义?
不胜感激!