楼主: 有福有德
27971 8

[学习资料] 异常值处理的常用方法 [推广有奖]

教师

院士

6%

还不是VIP/贵宾

-

威望
4
论坛币
56500 个
通用积分
8.4735
学术水平
344 点
热心指数
203 点
信用等级
274 点
经验
37400 点
帖子
1138
精华
10
在线时间
945 小时
注册时间
2010-10-14
最后登录
2024-3-21

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

   (1)直接将该条观测删除

在SPSS软件里有2种不同的删除方法,整条删除和成对删除。

当然,这种方法简单易行,但缺点也很明显,首先我们经常会遇到的情况是观测值很少,这种删除会造成样本量不足,其次,直接删除的观测很多,也可能会改变变量的原有分布,从而造成统计模型不够稳定。

   (2)暂且保留,待结合整体模型综合分析

    通常我们观测到的异常值,有时在对于整个模型而言,其异常性质并没有观测到的明显,因此最好综合分析一下,像回归分析,我们经常利用残差分布信息来判断模型优劣,残差有没有超出经验范围(+3标准差),呈现什么分布等,另外对于整个模型而言,会有一些指标像Mahalanobis、Cook's、协方差比率等可以提供某条观测或整体的拟合信息,这些指标也会提示分析人员的异常值信息。如果对于整个模型而言,并不是很明显时,建议保留。

   (3)如果样本量很小,可以考虑使用均值或其他统计量取代

这不失为一种折中的方法,大部分的参数方法是针对均值来建模的,用均值取代,实际上克服了丢失样本的缺陷,但却丢失了样本“特色”,可以说是不大不小的错误。当然如果是时序数据,用于取代的统计量,可供选择的范围就会多一些,可以针对序列选择合适的统计量取代异常值,也较少存在上述问题。

   (4)将其视为缺失值,利用统计模型填补

该方法的好处是可以利用现有变量的信息,对异常值(缺失值)填补。不过这里最好要视该异常值(缺失值)的特点而定,例如需视是完全随机缺失、随机缺失还是非随机缺失的不同情况而定。

   (5)不做过多处理,根据其性质特点,使用稳健模型加以修饰

如果按参数性质分的话,可以将稳健方法分为参数、非参和半参3种情况,这大致与通常的关于参数的假设、优点一样,请参见:

   (6)使用抽样技术或模拟技术,接受更合理的标准误等信息

抽样样本(SPSS默认是1000)所计算出的均值的标准误,一般来说会更合理,这可以有效应对异常值的影响,但前提是原始样本量不能太少(小于10),小样本的结果不够稳定。另外模拟技术可以利用先验分布特征和样本信息来构建事后预测的概率分布,进行事后模拟,这种技术现在发展的很好,在异常值的应对中,表现良好。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:异常值 Mahalanobis spss软件 mahal SPSS 模型 回归分析 标准差 特色

所有模型都是错的
沙发
白天衣 发表于 2012-12-28 11:23:29 |只看作者 |坛友微信交流群
谢谢分享

使用道具

藤椅
清水边看水 发表于 2012-12-28 21:30:38 |只看作者 |坛友微信交流群
这个很有用啊

使用道具

板凳
夏落小7 发表于 2013-5-10 10:22:32 |只看作者 |坛友微信交流群

使用道具

报纸
psnxtansini 发表于 2014-4-28 16:00:35 |只看作者 |坛友微信交流群
好东西啊,早看到就好了,╮(╯▽╰)╭

使用道具

地板
et2000it1000 发表于 2014-8-11 16:10:39 |只看作者 |坛友微信交流群
谢谢!

使用道具

7
phze 发表于 2015-5-19 20:58:19 |只看作者 |坛友微信交流群
学习了。谢谢分享。

使用道具

8
lanvinder 发表于 2016-4-14 17:09:43 |只看作者 |坛友微信交流群
谢谢 正在需要它

使用道具

9
hiruner 发表于 2017-8-24 10:42:50 |只看作者 |坛友微信交流群
谢谢,非常不错的资料

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-26 20:18