一个与样本拟合程度过高的模型,已经与实际脱离,失去了应用的价值过度拟合就是为了达到一致假设,而使假设变得过度严格。
从商业应用上看模型的准确定,就需要从数据和应用实际出发。尤其对于预测类的模型,数据的分布要有清晰的掌握。列明几点:
1.在商业应用中,不可能获取到全部因素,同时还有随机因素影响,在实际中,有100%的准确度基本是不可能的
2.如果出现100%准确度的模型,需要检查是不是错误的引入了和预测变量相关的变量,这种变量对于未来本身就是不确定的。这种情况出现,一来本身就是错误,二来,这样的模型在实践中无法应用。
3.模型的准确性与样本数据结果也有关系,例如A类样本占有90%,B类样本占比10%,此时构建模型预测一个样本属于A还是B,即便模型将样本全部判定为A,模型的准确性还可达到90%,对于实践毫无益处。
4.针对第三点如何处理样本失衡问题。两种方式,一般来讲比较普遍的方式是做样本失衡的负抽样或正抽样处理(尽可能不破坏真实的比例,偏离整体越大,得到模型虽然训练的准确度很不错,但是容易过拟合);另外可以采用少样本重复(把样本的特征加强了,重复多次,强调样本特征)
注意一点:
1.使用SmartMining构建模型时,可以使用评估节点查看模型预测的准确性,还可以查看详细的模型评估。
2.可以使用样本抽样,通过对比不用样本的模型准确性,以检测模型是否稳定。
(转发注明出处)