数据中可能存在一些噪声,因此在正式应用数据前需要对一些异常数据进行剔除,一提出异常数据的原则有三条:
1.使用切比雪规定理,数据在2倍标准差内的数据项为:75%;3倍标准差内的数据为89%,4倍标准差内的数据为94%。对数据分布无要求。
2.经验法则,如果数据呈正态分布:数据在1倍标准差内的数据项为:68%;2倍标准差内的数据为95%,3倍标准差内的数据为100%
3.使用分位数:下限:Q1-1.5IQR,上限:Q3+1.5IQR,其中Q1为四分之一分位数,Q3为四分之三分位数,IQR为四分位距。该方法通常结合箱线图一起进行,更直观。


雷达卡



京公网安备 11010802022788号







