大家来聊一聊,“过拟合现象”的根本原因是什么?
刚才不小心发到Stata专栏里去了,又无法撤销
我先谈谈我自己的一点愚见,希望能起到抛砖引玉的作用。
最近在录像时,其间涉及到某一问题可能出现过拟合现象时,突然脑海里一闪:“过拟合现象不就是样本对总体不具代表性(即代表性没那么强)所致吗?”
试想,某人得到一批样本(例如,可能是随机抽样得到的,也可能不是),如果该样本对总体不具代表性,而其所构建的模型却对该样本拟合的特别好,甚至将只有该样本具有的某些微小特征而除此之外的其他样本都不具有的特征,都刻画出来了,此时,若采用该模型去刻画其他样本,模型的拟合效果可能会很糟糕,这就是过拟合现象。因此,对于这种情形,模型的拟合程度越高,就越容易出现过拟合现象。这也就是许多教材或文献里所说的拟合优度(包括修正的拟合优度)不宜过高,如0.9999之类的,其实,是隐含了一个前提假设:当样本对总体的代表性不高时。
相反,如果样本对总体的代表性极高,一个极端情况是100%代表总体,此时,若模型对样本拟合程度的特别好,就是一件好事,如果拟合优度能达到1,就最完美了。此时,如果再重新抽样得到另一批样本,只要新样本对总体具有一定的代表性,原模型对新样本的拟合程度就不会太差;当然,如果新样本对总体的代表性不足,原模型对新样本的拟合程度不高也是正常现象,因为大家建模时,还是希望所用样本能够代表需要研究的总体,否则,通过抽样进行统计推断就失去了意义。
当然,这仅是个人的一点愚见,希望大家批评指正、交流,多提自己的看法哈


雷达卡





京公网安备 11010802022788号







