|
由于对于带宽b的最佳选择没有封闭形式的解*, 我们根据K-fold交叉验证得出的性能估计,根据经验确定后者。图14说明了如何:发现b=0.2时的平均准确率(所有分类的平均准确率)最大,并且该图显示,“norm6”的性能在b=0.2时开始“下降”,而其他分类的性能要么下降,要么也开始下降。最后,当b=0.1时,超过一半的分类者的表现比b=0.2.4时差。图16和表8显示了k和不同阻力度量的不同选择的kNN的准确率,同样针对六个特征选择中的每一个。对于为kNN选择最佳k,同样没有解析解。图16表明,k越小,我们可以达到的准确率就越好。然而,小k意味着最近邻居的集合可能很小,我们将在少数对手中占据多数,这可能会使结果对数据中的噪声敏感。Jirina和Jirina(2008)以及Hassanat et al.(2014)建议,根据经验法则,k应选择接近√n其中n是训练样本数。在我们的研究中,n=100,对应于雷曼破产前的100天。此外,我们希望k是奇数,以避免多数规则中的关系。结果,我们选择了k*= 通常,表8列出了测试误差的平均u和方差σ。图17和表9显示了六个逻辑回归分类的K倍分层交叉验证中,经验准确率与层数的依赖关系,表明它们非常稳定。我们注意到,尽管LR在银行业很受欢迎(creditscoring),但其准确性可能会非常不稳定,这取决于特征变量的选择。6.
|