楼主: yujiannan
9277 27

[学习资料] 拟合效果极差该怎样处理? [推广有奖]

21
冀京四海 发表于 2007-6-21 16:56:00
很显然有离群点(异常值)嘛

22
yujiannan 发表于 2007-6-21 17:27:00
问题是去掉太多的异常值是否会损害信息含量?再说,我也不是仅仅研究这两个变量间的关系,当研究其他回归是变量更多,是不是还要重新去除异常值?

23
冀京四海 发表于 2007-6-21 20:45:00
以下是引用yujiannan在2007-6-21 17:27:00的发言:
问题是去掉太多的异常值是否会损害信息含量?再说,我也不是仅仅研究这两个变量间的关系,当研究其他回归是变量更多,是不是还要重新去除异常值?

你已经试着做了?剔除了多少条记录?鉴于你的样本数量有115个,我觉得不会损失多少信息。

如果异常值确实比较多的话,其实可以认为那些公司比较特殊,也可以考虑将那些所谓的异常值做另外的分析。

这样其实就把原来的数据分成2部分分别进行分析。

这样一来你所担心的问题或许就能得到解决了~~~~

24
xiaa 发表于 2007-6-22 10:30:00
以下是引用冀京四海在2007-6-21 20:45:00的发言:

你已经试着做了?剔除了多少条记录?鉴于你的样本数量有115个,我觉得不会损失多少信息。

如果异常值确实比较多的话,其实可以认为那些公司比较特殊,也可以考虑将那些所谓的异常值做另外的分析。

这样其实就把原来的数据分成2部分分别进行分析。

这样一来你所担心的问题或许就能得到解决了~~~~

方法不错。

从图上看确实有几个异常信息,可以考虑对其进行个别的分析——当然不一定非要是统计学上的分析。对其他大部分数据可以进行正常的统计学分析了。

25
ereree 发表于 2007-6-23 00:07:00
把数据传上来吧.
给中文世界的优质语料添砖添瓦

26
yujiannan 发表于 2007-6-26 15:35:00
请问个别分析是指什么分析?

27
yujiannan 发表于 2007-6-26 15:43:00

MODEL: MOD_3.

Variable: 伪Q Maximum value: 107.6616634586
This variable contains values that are larger than the input upper bound.
The LGSTIC model cannot be fitted for this variable.

Independent: FH

Upper
Dependent Mth Rsq d.f. F Sigf bound b0 b1 b2 b3

伪Q LIN .028 113 3.28 .073 42.0017 -.2839
伪Q LOG .032 113 3.68 .058 67.2179 -10.079
伪Q INV .031 113 3.61 .060 22.5536 288.597
伪Q QUA .034 112 1.97 .144 53.9494 -1.0034 .0096
伪Q CUB .034 111 1.30 .277 53.3744 -.9498 .0081 1.3E-05
伪Q COM .040 113 4.69 .032 38.2265 .9876
伪Q POW .040 113 4.74 .031 107.384 -.4216
伪Q S .037 113 4.33 .040 2.8214 11.6576
伪Q GRO .040 113 4.69 .032 3.6435 -.0125
伪Q EXP .040 113 4.69 .032 38.2265 -.0125
4 伪Q LGS

Notes:
4 Some values bigger than specified upper bound; no equation estimated.

请问这样的回归结果是否可用?

28
冀京四海 发表于 2007-6-27 02:10:00
问题已经基本解决,请版主给予奖励

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-1 06:14