|
例如,AdaBoost的AUC比ANN高(91.8%,81.0%),但ANN表现出更好的准确性、精确性、召回率和F1得分。当将所有质量度量一起分析时,可以看出非线性分类器往往具有不太一致的度量。例如,SVM报告了良好的AUC和准确度(分别为84.3%和92.6%),但准确度、召回率和F1分数实际上为零,因为分类器预测的所有数据都属于混淆矩阵所示的非破产类别。这可能是由于高维问题的训练数据有限,导致这些高阶非线性分类器过度拟合,从而导致维数灾难。通常,随着特征数量(即维度)的增加,数据数量需要呈指数增长才能保持相同的密度(Verleysen&Francois,2005)。虽然通过降维,与原始论文相比,特征的数量显著减少,但30维空间的5000个数据点仍然相当少。在分析其他质量控制因素后,似乎由于数据量有限和特征数量众多,与更复杂的机器学习算法相比,更简单的分类器,如K-D树和logistic回归(尽管在测试的分类器中AUC最低,但它具有更好的平均质量控制度量)实际上能够更好地概括新数据。在测试数据上,它们的性能具有可比性,逻辑回归的性能稍好,并且需要更少的存储来进行更快的预测。
|