楼主: spssau
1527 0

[学习资料] 数据清洗时异常值怎样识别和处理? [推广有奖]

  • 0关注
  • 35粉丝

教授

24%

还不是VIP/贵宾

-

威望
0
论坛币
165 个
通用积分
1001.5837
学术水平
20 点
热心指数
22 点
信用等级
20 点
经验
16902 点
帖子
541
精华
0
在线时间
639 小时
注册时间
2018-1-14
最后登录
2024-5-31

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

数据分析工作中,面对收集而来的数据,数据清洗是首要环节。而异常值处理是其中的一个重要部分。下面介绍一下如何处理数据中的异常值。

一、异常值判断

何为异常值?

异常值,指的是样本中的一些数值明显偏离其余数值的样本点,所以也称为离群点。异常值分析就是要将这些离群点找出来,然后进行分析。

异常值判断

在不同的数据中,鉴别异常值有不同的标准,常规有以下几种:

  • (1)数字超过某个标准值

这是最常用的异常值判断方法之一。主要是看数据中的最大值或最小值,依据专业知识或个人经验,判断是否超过了理论范围值,数据中有没有明显不符合实际情况的错误。

比如,测量成年男性身高(M),出现17.8m这样的数据,显然不符合实际情况。

又或者,如问卷数据使用1-5级量表进行研究,出现-2,-3这类数据,则可能提示为跳转题、空选等。

  • (2)数据大于±3标准差

3σ 原则是在数据服从正态分布的时候用的比较多,在这种情况下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。

在数据处理的时候,按照正态分布的性质,三个标准差以外的数据都可以被看作是错误的数据从而排除掉。

二、异常值的鉴别

(1)箱盒图

箱盒图很适合鉴别异常值,具体的判断标准是计算出数据中的最小估计值和最大估计值。如果数据数据超过这一范围,说明该值可能为异常值。箱盒图会自动标出此范围,异常值则用圆圈表示。

SPSSAU【可视化】–【箱线图】可完成此操作。

(2)描述分析

描述分析可以得到数据的最大值、最小值、四分位值等。通过描述分析查看出数据中有无极端值,并将极端值剔除。不过描述分析没有箱盒图展现的直观,一般可以初步筛查时使用。

SPSSAU【通用方法】–【描述】可完成此操作。

(3)散点图

散点图通过展示两组数据的位置关系,可以清晰直观地看出哪些值是离群值。异常值会改变数据间的关系,通常在研究数据关系,如进行回归分析前,都会先做散点图观察数据中是否存在异常值。

SPSSAU【可视化】–【散点图】可完成此操作。

三、异常值处理

异常值的处理分为三种:设为缺失值、填补、不处理。

(1)缺失

设置为Null值;此类处理最简单,而且绝大多数情况下均使用此类处理;直接将异常值“干掉”,相当于没有该异常值。如果异常值不多时建议使用此类方法。

(2)填补

如果异常值非常多时,则可能需要进行填补设置,SPSSAU共提供平均值,中位数,众数和随机数、填补数字0共五种填补方式。

(3)不处理

一些异常值也可能同时包含有用的信息,是否需要剔除,应由分析人员自行判断。

四、异常值操作

  • SPSSAU操作

判断有异常值后可以通过SPSSAU【数据处理】–【异常值】进行处理。

此处可以对缺失值进行填补或设为Null,即空值。也可以对异常值进行处理。设置标准由分析人员自行设定,然后点击“确认处理”按钮即可生效。

  • 注意事项

1、异常值带微弱主观性,判定没有固定标准,一些异常值也可能同时包含有用的信息,是否需要剔除,应由分析人员自行判断。

2、异常值一旦处理则无法恢复,建议先备份数据再操作。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:异常值 SPSSA 三个标准差 SPSS 实际情况

www.spssau.com
您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-31 22:52