Outliers Detection by using SAS Proc Univariate-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 软件培训>>

SAS软件培训

>>

Outliers Detection by using SAS Proc Univariate

Outliers Detection by using SAS Proc Univariate

发布:Jackywolf_2008 | 分类:SAS软件培训

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

前些天看了同事转发的一篇介绍R中奇异值(outlier)探查方法的文章,获益良多。文章介绍了如下四种常用探查方法,·TheESDidentifier,morecommonlyknownasthe“three-sigmaeditrule,”wellknownbutunreliable;·TheHam ...
免费学术公开课,扫码加入


前些天看了同事转发的一篇介绍R奇异值(outlier)探查方法的文章,获益良多。文章介绍了如下四种常用探查方法,

· TheESD identifier, more commonly known asthe “three-sigma edit rule,” well known but unreliable;
· TheHampel identifier, a more reliableprocedure based on the median and the MADM scale estimate;
· Thestandard boxplot rule,based on the upper and lower quartiles of the data distribution;
· Anadjusted boxplot rule,based on the upper and lower quartiles, along with a robust Skewness estimatorcalled the medcouple.

有兴趣的可以到这里看一下,
http://www.r-bloggers.com/finding-outliers-in-numerical-data/?utm_source=feedburner&utm_medium=email&utm_campaign=Feed:+RBloggers+(R+bloggers)
上述方法中所使用到的统计量可以分为两类,一类是描述数据的集中趋势(estimators of location),一类是描述数据的离散程度(estimators of scale)。

Estimators of location 包括:
· 均值(Mean)
· 中位数 (Median)
Estimators of scale包括:
· 标准差 (Standard Deviation)
· IQR (Theinterquartile range)
· MAD (medianabsolute difference)

因此,上面的方法可以抽象成下面这样的一个公式:
[(Estimators of location -scale multiplier * Estimators of scale), (Estimators of location+ scale multiplier * Estimators of scale)]

所有位于这个区间外的值,从统计学角度讲,将被视为outliers
SAS中如何计算这些统计量并实现上述方法呢?
其实在SAS中有一个很好用的统计过程,proc univariate(单变量分析),它可以帮助我们。这里以SAS 示例数据库中的HMEQ数据集进行演示,计算变量loan的各种统计量,代码如下:
1

proc univariate data= sampsio.hmeq outtable= stats(rename=(_VAR_=VarName)) ;
varloan;
run;

proc transpose data= stats out=_stats;
run;

proc print data=_stats;
run;
输出数据集stats中存储了上述我们所需要的统计量,将需要的统计量代入上面的公式当中

· The ESD identifier
Estimator oflocation= _MEAN_
Estimators ofscale = _STD_
Scale multiplier =3
· The Hampel identifier
Estimator oflocation= _MEDIAN_
Estimators ofscale = _MAD_
Scale multiplier =3
· The standard boxplot rule
Estimator oflocation= _Q1_ and _Q3_
Estimators ofscale = _QRANGE_
Scale multiplier =1.5
· An adjusted boxplot rule
Estimator oflocation= _Q1_ and _Q3_
Estimators ofscale = _QRANGE_
Scale multiplier = c* exp (a * MC) and c * exp (b * MC)
(目前SAS中没有内置计算medcouple的统计过程,有兴趣的可研究一下。)

由于ESD identifier方法中的统计量,均值(MEAN)和标准差(STD),对outlier十分敏感,当所探查变量中含有较多outliers的时候,这种方法很容易失效。从这个角度看,其余三种方法可以看作是对它的优化和扩展,他们都是通过使用robustestimator, 来尽可能地降低outlier带来的影响。SASunivariate过程对此也提供了相应的支持,可以计算各种robust estimator。
例如,
Robust estimatorof location中除MEDIAN外,还有Trimmed mean和 Winsorized mean。
· Trimmed Mean - 通过去掉数据中最大和最小的一部分数据后,计算剩余数据的MEAN得到的。
· Winsorized Mean - 通过使用第 (k-1) 个最大和最小值替换数据中第k个最大和最小值后,再计算数据的MEAN得到的。 
实现代码如下:
2
ods output TrimmedMeans = trimmedmean;
ods output WinsorizedMeans =winsorizedmean;

proc univariate data=sampsio.hmeq trimmed=10
winsorized=10robustscale out=_stats;
var loan;
run;
上面的那个例子不同,由于univariate的输出数据_stats里面没有trimmed mean和winsorized mean,因此这里我们需要使用ods output将其输出到数据集trimmedmean和winsorizedmean中。
Robust estimator of scale中除了IQR和MAD外,还包括:
§Gini’s meandifference
§SN
§QN
其中SN和QN可以看作是对MAD的扩展。除了IQR, MAD, Gini’s mean difference, SN, QN, 这五个robust estimator外,proc univariate还分别计算出了基于这五个robust estimator的标准差(_STDGINI_,_STDQRANGE_,_STDMAD_,_STDSN_,_STDQN_)。
上述的这些robust estimator默认存储在procunivariate的输出数据集中,有了这些robust estimators,我们就可以使用他们来替换ESDidentifier中的均值和标准差,如,
Estimator of location= TRIMMED MEAN
Estimators of scale = _STDMAD_
这将有助于提高ESD identifier探查方法的准确性和稳定性。
最后,我还想补充两点(R的那篇文章已经强调过了)
· Outlier和bad data完全不同的概念,应该正确区分,outlier有可能帮助我们发现新的模式和规则。bad data好比沙滩上随意丢弃的废弃物,而outlier则是沙土下埋藏的贝壳,它里面有可能孕育着宝库的珍珠。
· 统计学或统计方法中发现的Outlier,在商业实践是否有实际价值,需要结合实际的商业环境来进行解释,切勿过于依赖和迷信这些“神奇”的符号和数字,它们只是工具,商业直觉和经验能帮你更好的驾驭它们。
以下是一些SAS online doc中的参考文档
关于Robust Estimator的介绍
http://support.sas.com/documentation/cdl/en/procstat/63963/HTML/default/viewer.htm#procstat_univariate_sect031.htm
关于proc univariate 输出数据集的介绍
http://support.sas.com/documentation/cdl/en/procstat/63963/HTML/default/viewer.htm#procstat_univariate_sect049.htm
关于IML Studio中outlierdetection的方法
http://support.sas.com/documentation/cdl/en/imlsug/63546/HTML/default/viewer.htm#imlsug_ugdistoutliers_sect001.htm
「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-2266743-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。