异常值处理的常用方法 - SPSS论坛

12关注
180
粉丝

教师

已卖：273份资源

院士

7%

还不是VIP/贵宾

-

0%

威望: 4 级
论坛币: 56270 个
通用积分: 9.0633
学术水平: 344 点
热心指数: 203 点
信用等级: 274 点
经验: 37388 点
帖子: 1134
精华: 10
在线时间: 959 小时
注册时间: 2010-10-14
最后登录: 2025-12-3

楼主

有福有德

发表于 2012-12-26 15:41:09 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

（1）直接将该条观测删除

在SPSS软件里有2种不同的删除方法，整条删除和成对删除。

当然，这种方法简单易行，但缺点也很明显，首先我们经常会遇到的情况是观测值很少，这种删除会造成样本量不足，其次，直接删除的观测很多，也可能会改变变量的原有分布，从而造成统计模型不够稳定。

（2）暂且保留，待结合整体模型综合分析

通常我们观测到的异常值，有时在对于整个模型而言，其异常性质并没有观测到的明显，因此最好综合分析一下，像回归分析，我们经常利用残差分布信息来判断模型优劣，残差有没有超出经验范围（+3标准差），呈现什么分布等，另外对于整个模型而言，会有一些指标像Mahalanobis、Cook's、协方差比率等可以提供某条观测或整体的拟合信息，这些指标也会提示分析人员的异常值信息。如果对于整个模型而言，并不是很明显时，建议保留。

（3）如果样本量很小，可以考虑使用均值或其他统计量取代

这不失为一种折中的方法，大部分的参数方法是针对均值来建模的，用均值取代，实际上克服了丢失样本的缺陷，但却丢失了样本“特色”，可以说是不大不小的错误。当然如果是时序数据，用于取代的统计量，可供选择的范围就会多一些，可以针对序列选择合适的统计量取代异常值，也较少存在上述问题。

（4）将其视为缺失值，利用统计模型填补

该方法的好处是可以利用现有变量的信息，对异常值（缺失值）填补。不过这里最好要视该异常值（缺失值）的特点而定，例如需视是完全随机缺失、随机缺失还是非随机缺失的不同情况而定。

（5）不做过多处理，根据其性质特点，使用稳健模型加以修饰

如果按参数性质分的话，可以将稳健方法分为参数、非参和半参3种情况，这大致与通常的关于参数的假设、优点一样，请参见：

（6）使用抽样技术或模拟技术，接受更合理的标准误等信息

抽样样本（SPSS默认是1000）所计算出的均值的标准误，一般来说会更合理，这可以有效应对异常值的影响，但前提是原始样本量不能太少（小于10），小样本的结果不够稳定。另外模拟技术可以利用先验分布特征和样本信息来构建事后预测的概率分布，进行事后模拟，这种技术现在发展的很好，在异常值的应对中，表现良好。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享1 收藏14 回帖

关键词：异常值 Mahalanobis spss软件 mahal SPSS 模型回归分析标准差特色

[学习资料] 异常值处理的常用方法 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[学习资料] 异常值处理的常用方法 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群