楼主: 铁锷未残
32169 26

[回归分析求助] 异常值处理 [推广有奖]

魔猎大盗

已卖:1227份资源

学术权威

99%

还不是VIP/贵宾

-

TA的文库  其他...

杂七杂八

威望
2
论坛币
132626 个
通用积分
16010.8453
学术水平
860 点
热心指数
1130 点
信用等级
805 点
经验
1727324 点
帖子
10753
精华
0
在线时间
3739 小时
注册时间
2011-11-7
最后登录
2023-3-7

初级热心勋章 初级信用勋章 中级热心勋章 高级热心勋章

楼主
铁锷未残 学生认证  发表于 2014-12-18 12:00:05 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
在进行回归分析之前,通常需要检查样本中是否存在异常值,否则可能会影响模型最后的回归结果的估计。在这里需要提出的问题是,在检查异常值是仅仅就单独检查解释变量或是被解释变量还是将解释变量与被解释变量结合起来共同确定异常值呢?请指教。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:异常值 解释变量 回归分析 回归结果 请指教 回归分析 样本

世界上没有谁优不优秀,逼到绝路谁都卓越;有了退路,谁都平庸;世界上有条很长很美的路叫做梦想,还有堵很高很硬的墙叫现实;翻越那堵墙,叫做坚持;推倒那堵墙,叫做突破。

沙发
jiangqing001 发表于 2014-12-18 12:19:12

回帖奖励 +1

我做异常值的时候,只是对单独的。。。不知道有什么更加规范的做法

藤椅
铁锷未残 学生认证  发表于 2014-12-18 12:20:26
jiangqing001 发表于 2014-12-18 12:19
我做异常值的时候,只是对单独的。。。不知道有什么更加规范的做法
谢谢分享

板凳
SpencerMeng 在职认证  发表于 2014-12-18 12:33:04

回帖奖励 +1

我个人认为就是看散点图咯,看哪个点那个个性。。。

嘿嘿  拙见

报纸
铁锷未残 学生认证  发表于 2014-12-18 13:23:11
SpencerMeng 发表于 2014-12-18 12:33
我个人认为就是看散点图咯,看哪个点那个个性。。。

嘿嘿  拙见
如果样本量稍微大了点,这个就很难识别了吧。

地板
逍遥梦蝶 发表于 2014-12-18 14:09:55
help winsor或者help winsor2看看~

7
625928915 学生认证  发表于 2014-12-18 22:28:45
逍遥梦蝶 发表于 2014-12-18 14:09
help winsor或者help winsor2看看~

8
gongshundaren 发表于 2014-12-19 23:45:51

回帖奖励 +1

就要单独一个变量进行异常值检验的话,以前有次听统计建模讲座,那老师说到过用一个箱线图还是盒图什么的来衡量异常值,好像是用spss实现的,忘了是2倍还是4倍标准差之外的的就算异常值。

这个异常值的问题老师没说怎么处理。

我自己的经验和想法是插值,而插值的方法有很多种比如平均数插值、线性插值、曲线性插值、二次/三次样条插值、模型拟合插值和生成随机数法。总体的思想就是平均或者模型估计。
这里简单说一下我个人的经验性的理解

【这些方法用的时候大多数都要把异常值删去,但把他的空缺位置保留,而不是删去这个异常样本

平均数插值:就是用该变量所有的样本求出一个平均值,然后替代那个异常值。这个方法也用来处理缺失值。但问题在于某些变量本身就是有趋势的,比如递增或者递减,如果用这种平均的方法来替代异常值或者缺失值,则本身就成为了违反趋势的异常值了,这显然不好用,把数据拿出去给别人看,人家做个图就会觉得你数据有问题,直接就否定你的论文了。而且还有一个,样本中出现少量的平均值还好,如果平均值太多,数据的随机性就减弱了,数据的质量同样下降了。

平均值还有一种方法,就是前后几个数据求平均的方法,这种方法就是用来对付那些有趋势的变量。具体来说就是比如第4个数据是离群值或者缺失值,就可以用第3个、第5个(我称每使用前后多少个数值为步长,这里前后一个数值,所以步长为1)数据的平均值替代第4个数据,或者用第1、2、3、5、6、7个数据(这里前后三个数值,所以我称其步长为3)的平均值来替代第4个值,这样融合的前后的数值,能够体现出趋势。但前后选多少步长是个值得考虑的问题,从我个人的体验来说,我的建议是步长为2到4比较合适,太短显得数据处理技术不够(呵呵。。。。),太长可能导致数据被过度平滑,成为偏离趋势的离群值。

线性插值:顾名思义,就是线性拟合插值,这个适合有趋势的,而且变量的数据趋势是直线的。方法就是把数据(异常值删去,但保留其空位,自变量是1、2、3......或者年份1978、1979....,被解释变量就是你的那个要处理的变量)用最小二乘法拟合出一个线性方程,然后用异常值所对应的自变量(比如第5个为异常值或者缺失值,对应的自变量就是5)代入带你求出来的那个线性方程,这样得到的数值可以用来替代那个缺失值或者异常值。

曲线插值:就是针对线性插值的。有些变量的数值有趋势,但不是线性的,即图形出来不是直线,而是转弯的甚至拐好几个弯的那种(我去。。。。),这时候就可以按照线性插值的方法拟合曲线模型来估计缺失值或者异常值大概的数值。这个最好用的就是SPSS了,里面有个专门的模型拟合模块,大概有10种左右的模型任你挑。建议的挑选步骤是先全选所有的模型,然后全部拟合出来,看R方,R方越高拟合优度越好(其实不用我说的。。。),挑拟合优度最高的那个模型,然后把缺失值或者异常值对应的自变量(编号或者年份)代入那个模型,然后就可以填补缺失值或者异常值了。

二次/三次样条插值:这个东西是在固定收益证券里的看到的,里面讲利率期限结构的问题,说怎么拟合利率期限结构图。基本思想是拟合二次或者三次曲线方程,但由于数据存在断点(这里可以理解为缺失值或者异常值),拟合出来的曲线是不连续、连接点是不可导的(好高端的样子。。。。。)于是就通过某种高端的计算方法(我忘了。。。我也不会。。。。可能是蒙特卡洛或者bootstrap还是什么搜索方法)求连接点的数值,让曲线连续且可导。我这里就提供个思路哈,详情我也不懂。。。。。。这个样条插值法最优的是三次样条插值。

模型拟合插值:某些数据的量可能很大,随机性很高,同时可以含有趋势,那么这个时候计量里的自回归模型就可以用了,MA/AR/ARIMA/GARCH随便尝试(有技术,任性!呵呵。。。),然后挑个拟合优度最高的,然后求出异常值或者异常值的估计值。

生成随机数法:这个。。。。呃。。。。用的少。。。基本方法就是针对那些随机性很高、没有趋势、服从某种分布的变量。先作图或者用某个软件(我不知道用啥。。。)找出该变量的分布和参数(如均值方差之类的),然后采用生成随机数的方式随机生成数值,填补替代缺失值或者异常值。

当然,一些数学方法也可以用来拟合,比如模糊灰度啥的、遗传算法之类的(我不懂哈,只是见过有用来做预测和拟合的。。。)

上面这些方法可以综合运用,比如某个变量前面一段是直线,后面一段是曲线,就可以先用直线拟合前面那一段,后用曲线拟合后面那一段,从而求出估计值;比如前面那一段有一定的趋势和随机性,后面那一段则完全随机,就可以前面那一段用自回归模型,后面那一段用随机生成的方法。



联合所有检验异常值的话,我在最近的MATLAB课上听老师说,先建立回归模型,然后看残差,如果哪个点或说样本的残差明显离群那么这个样本就是离群值(如图所示),处理方法老师说的是删除该样本

以上纯属个人经验和理解,欢迎讨论,请勿拍砖!层主码这么多字也不容易。。。。



残差检验异常值.png (7.42 KB)

残差检验异常值.png

已有 2 人评分论坛币 学术水平 收起 理由
jiang25u + 1 精彩帖子
admin_kefu + 70 根据规定进行奖励

总评分: 论坛币 + 70  学术水平 + 1   查看全部评分

9
ayuxi 发表于 2014-12-20 14:56:55

回帖奖励 +1

xiexie xiexie

10
铁锷未残 学生认证  发表于 2014-12-20 15:12:28
gongshundaren 发表于 2014-12-19 23:45
就要单独一个变量进行异常值检验的话,以前有次听统计建模讲座,那老师说到过用一个箱线图还是盒图什么的 ...
谢谢讲解。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-4 17:14