楼主: 财经节析
6487 6

[问答] 大家来聊一聊,“过拟合现象”的根本原因是什么吧? [推广有奖]

编辑

讲师

98%

还不是VIP/贵宾

-

威望
0
论坛币
4215 个
通用积分
272.4845
学术水平
146 点
热心指数
157 点
信用等级
116 点
经验
8978 点
帖子
776
精华
3
在线时间
166 小时
注册时间
2017-8-25
最后登录
2022-7-7

楼主
财经节析 发表于 2018-8-29 17:07:11 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
大家来聊一聊,“过拟合现象”的根本原因是什么?
刚才不小心发到Stata专栏里去了,又无法撤销

我先谈谈我自己的一点愚见,希望能起到抛砖引玉的作用。

最近在录像时,其间涉及到某一问题可能出现过拟合现象时,突然脑海里一闪:“过拟合现象不就是样本对总体不具代表性(即代表性没那么强)所致吗?”

试想,某人得到一批样本(例如,可能是随机抽样得到的,也可能不是),如果该样本对总体不具代表性,而其所构建的模型却对该样本拟合的特别好,甚至将只有该样本具有的某些微小特征而除此之外的其他样本都不具有的特征,都刻画出来了,此时,若采用该模型去刻画其他样本,模型的拟合效果可能会很糟糕,这就是过拟合现象。因此,对于这种情形,模型的拟合程度越高,就越容易出现过拟合现象。这也就是许多教材或文献里所说的拟合优度(包括修正的拟合优度)不宜过高,如0.9999之类的,其实,是隐含了一个前提假设:当样本对总体的代表性不高时。

相反,如果样本对总体的代表性极高,一个极端情况是100%代表总体,此时,若模型对样本拟合程度的特别好,就是一件好事,如果拟合优度能达到1,就最完美了。此时,如果再重新抽样得到另一批样本,只要新样本对总体具有一定的代表性,原模型对新样本的拟合程度就不会太差;当然,如果新样本对总体的代表性不足,原模型对新样本的拟合程度不高也是正常现象,因为大家建模时,还是希望所用样本能够代表需要研究的总体,否则,通过抽样进行统计推断就失去了意义。


当然,这仅是个人的一点愚见,希望大家批评指正、交流,多提自己的看法哈
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


已有 3 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
statax + 3 鼓励积极发帖讨论
胖胖小龟宝 + 20 + 1 + 3 鼓励积极发帖讨论
crystal8832 + 50 + 2 + 2 + 2 鼓励积极发帖讨论

总评分: 论坛币 + 73  学术水平 + 3  热心指数 + 5  信用等级 + 2   查看全部评分

沙发
财经节析 发表于 2018-9-10 23:33:16 来自手机
沙发

藤椅
天南水北 发表于 2018-9-11 14:16:02
恐怕不对。计量的过拟合和机器学习的过拟合不是一回事。
我不懂机器学习,窃以为机器学习的过拟合,大概是因为采用了过多了结构过多变量,引起系数或者结构估计不稳健所致。这表现为,样本内拟合很好样本外拟合很差。
而计量的过拟合则是另一码事。计量本身不需要采用很复杂的模型设定,估计出系数的目的也是为了从数据中找出经济规律,所以并不追求样本内样本外的预测精度。样本内样本外的拟合结果,一般要和同类文献看齐,如果你的拟合优度和别的文献差异很大,要么是你很牛逼,找出了一个非常非常非常重要的规律,要么你的东西就是一坨翔,你的模型设定不符合经济规律或者不符合计量的模型设定,不然平稳性假定。
机器学习的过拟合问题,应该只要有无穷多的样本和无穷大的算力,即便样本不完全代表总体,就能解决。计量的过拟合问题,如果是模型设定造成的,那和数据量大小无关。

板凳
财经节析 发表于 2018-9-12 13:33:34
天南水北 发表于 2018-9-11 14:16
恐怕不对。计量的过拟合和机器学习的过拟合不是一回事。
我不懂机器学习,窃以为机器学习的过拟合,大概是 ...
非也非也。

不管是你说的机器学习还是计量,都是类似的,如果你选择的样本不能代表你要研究的总体,样本选择的越多,偏差依然是存在的,得到建议或结论依然会存在问题。

所谓的模型设定造成的计量过拟合问题,本质还是你设定的模型对你的样本拟合的特别好,换批样本或数据,拟合的效果就会非常糟。如果你的样本对你研究问题的总体代表性高,就不存在模型设定导致过拟合呀,因为此时模型的拟合效果越高越好,哪来的过拟合的呢???

报纸
我是yeyahong 发表于 2018-9-18 09:20:57
机器学习上的过拟合主要是由于学习器将训练样本的自身特点也学习进去,并将其认为是潜在样本的普遍特点,从而形成了泛化误差,导致了过拟合。这种情况可能是由于两类原因导致吧,1.训练样本分布与测试样本分布不一致。2.学习器的特征选择原因,所选取的特征可能不具备普适性

地板
statax 发表于 2018-9-18 22:16:14
人工神经网络就会出现过度拟合。 计量一般是基于理论的,所有要求拟合比较“光滑”,机器学习类虽然不是基于理论的,属于探索,但是如果把每一个样本点都拟合出来,则没有了随机干扰的影响,理论上就不通了。

7
foozhencheng 学生认证  发表于 2018-9-19 07:15:11 来自手机
财经节析 发表于 2018-8-29 17:07
大家来聊一聊,“过拟合现象”的根本原因是什么?
刚才不小心发到Stata专栏里去了,又无法撤销

首先先说一下题主观点的问题:什么是样本对总体的代表性呢?如果的说iid取样,那么样本量越大,样本对总体的代表性越好。换句话说,在固定样本数量的情况下,样本代表性总是十分有限的(如果非要用个数字来衡量的话那我认为应当是远小于1)。模型拟合讨论的都是在有限样本的情况下,所以像题主所说的完全代表对于有限样本是不存在的。
再说一下题主观点的亮点:计量与机器学习确实不一样。计量的模型拟合的目的在于解释与推断,而机器学习在于预测。两者确实有本质的区别。但是在过拟合的问题上,两者有相通的原因和表象: 原因为所选取的模型的函数空间过大。或者说模型复杂度过高,自由度过大。而表现出来的现象从bias-variance tradeoff角度讲是很小的bias同时有很大的variance,与之相对应的欠拟合是很大的bias同时有很小的variance。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-2-7 17:34