|
8-A显示了包含S1表中所有特征的二元分类器模型的混淆矩阵。此功能配置实现了最高的性能(精度=76%,F1宏平均值=77%)。正如所观察到的,这个经过训练的模型能够预测真正的消极(“非过渡”——回忆=84%)略好于真正的积极(“实际过渡”——回忆=71%)。图8-B显示了“接收方操作特征”曲线(ROC曲线),它是二进制分类模型在所有分类阈值下的性能。ROC曲线总结了使用不同概率阈值的权衡模型。通常,高性能模型由曲线图左上角的ROC曲线表示。如图所示。8-B,蓝色ROC曲线始终高于红色斜线,这表明表现水平很强。类似地,图8-C显示了混淆矩阵,图8-D显示了仅包括技能空间距离度量(“θ”)的分类器模型的ROC曲线。虽然“仅限θ”模型仍表现相对较好(准确度和F1宏观平均值=73%),但性能确实有所下降。同样,真正的消极因素(“非a=64%)。这突出表明,招聘广告数据和就业统计数据中增加的劳动力市场特征提高了模型的性能,可以预测单独使用“θ”的模型的ROC曲线略低。2021年8月12日34/42消融试验及特征重要性。为了了解“JobTransitions推荐系统”中建模特征的相对重要性,我们进行了烧蚀测试和特征特征集,然后重新训练模型,以进行预测和评估性能。我们得出结论,如果删除某个功能后性能下降,则该功能对模型的预测能力“更重要”。无花果
|