Grubbs检验是定义异常值的最常用方法之一,非常容易理解。该方法又称“ESD法”(Extreme Studentized Deviate Test,极端学生化偏差)。
Grubbs检验的工作原理
第一步是量化异常值与其他值的偏离程度。将比率Z计算为异常值与平均值之差除以SD。如果Z很大,则该值与其他值偏离较远。
注意,你基于所有值(包括异常值) 计算平均值和SD 。

有时,你会看到该值称为G,而非Z。
由于高斯群体中5%的值与平均值的标准偏差超过1.96,你首先想到的可能是得出结论:如果Z大于1.96,则异常值来自不同的群体。仅当你从其他数据知道群体平均值和SD时,这种方法才有效。虽然这种情况在实验科学中很少发生,但在质量控制中却很常见。你从历史数据中知道整体平均值和SD,并想知道最新值是否与其他值匹配。这是质量控制图的基础。
当分析实验数据时,你不知道群体的SD。相反,你可以根据数据计算SD。异常值的存在使得计算的SD增加。由于异常值的存在使得分子(值和平均值之间的差)和分母(所有值的SD)增加,所以Z不能像您所期望的那样大。例如,如果N = 3,则对于任何一组值,Z都不能大于1.155。更一般地说,如果样本包含N个观察值,则Z永远不会大于:

Grubbs和其他方法列出了Z的临界值,这些临界值已列入表格。正如预期,临界值随着样本量的增加而增加。如果你计算的Z值大于表中的临界值,则P值小于0.05。
注意,Grubbs检验仅检验样本中的最极端值。如果不清楚哪个值是最极端值,则计算所有值的Z,但只从Z的最大值计算Grubbs检验的P值。
GraphPad Prism可以用数据集中少至三个值来计算Grubbs检验。
如何解释P值
如果P值小于0.05,这意味着:如果所有数据确实都是从单个高斯分布中抽样,则你在单纯的巧合下遇到与其他值偏离较远(在任何方向)的异常值的概率小于5%。
注意,5%的概率(或您选择的任何α值)适用于整个数据集。如果你的数据集有100个值,并且都是从高斯分布中抽样,则Grubbs检验将最大(或最小)值宣布为异常值的概率为5%。如果你对大量数据集进行异常值检验,则你可能预期5%的数据集中会发现这种错误。
不要混淆,并且认为5%适用于每个数据点。如果数据集中有100个值,并且都来自高斯分布,则Grubbs检验将与平均值相距最远的值识别为异常值的概率为5%。这不同于(错误地)得出这一结论:你预期其中5个值(占总数的5%)错误地宣布为异常值。
参考文献
- B Iglewicz和DC Hoaglin。如何检测和处理异常值(Asqc《质量控制的基本参考》,第16卷)美国质量管理协会,1993。
- V Barnett、T Lewis和V Rothamsted,统计数据中的异常值(《概率论与数理统计(威利系列)》、《应用概率统计》)John Wiley&Sons,1994。


雷达卡




京公网安备 11010802022788号







