|
对于每一个n,通过计算误分类率对保持样本DHNB进行测试HN定义人Hn=#DHnX(x,y)∈DHn公司1.- I(y,^y(x)), (30)其中,如果u=v,则I(u,v)=1,否则为0。如果数据以某种格式出现,则减少采样偏差,例如PD数据按递增幅度排序4。取样本平均值和标准偏差Hnas对预期分类率及其标准差的经验估计值为:buK=KKXn=1HnbSK=vtKKXn=1(Hn公司-buK)。(31)如果我们假设抽样误差的分布,例如正态分布、学生t分布或甚至β分布(εHnare均在0和1之间构造),我们可以将这些数字转换为95%的置信区间,但我们仅限于报告Bukandbsk。还要注意1-buKwill是对预期准确率的估计。2.10.2 K倍交叉验证的K选择Kohavi(1995)建议使用分层交叉验证来测试分类。基于扩展数据集,它表明K=10是一个不错的选择。Breiman等人(1984)也发现了这一点,他们报告称,K=10在决策树研究中给出了令人满意的交叉验证结果。我们检查了K对分层Coss验证对判别分析、逻辑回归和支持向量机系列(见图13、17和11)的影响,并发现K=10是一个令人满意的选择,除非另有说明,我们对八个分类族的所有交叉验证结果都是在K=10.2.11特征选择和特征提取的情况下获得的。在讨论了八个分类族以及我们用于评估分类性能的统计评估程序之后,我们转向了特征变量。
|