[问答] 面板数据组内离群值怎么处理？ [推广有奖]

已卖：411份资源

硕士生

70%

还不是VIP/贵宾

楼主

发表于 2017-12-23 10:23:35 |AI写论文

是否 +2 论坛币

k人参与回答

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

送您一个全额奖学金名额~ !

经管之家送您两个论坛币！

+2 论坛币

想请教一下，要处理panel data里面group的离群值，有没有什么标准？比方说不看group看变数所有年度的资料就还好，但一看group各年度资料就有很大的离群值。

复制代码

在group量很大的时候想到一个方法是用skewness大小于＋-1，kurtosis大于3的id挑出来进行处理，但由于这是检测常态分布，会有点问题，例如id 6组内没有离群，但skewness = 1.1523064、kurtosis = 4.352835，请问有没有更好的方法？

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

沙发

发表于 2017-12-24 03:35:27

目前用zoo和tsoutlier两个packages找到的最好的解法：
library(tsoutliers)
library(zoo)
z <- read.zoo(data, split = "id", index = "year", FUN = identity)
out.all <- list()
for (i in 1:ncol(z)) {
y <- z[,i]
fit <- arima(y, order = c(1, 1, 0), seasonal = list(order = c(2, 0, 2)))
resid <- residuals(fit)
pars <- coefs2poly(fit)
outliers <- locate.outliers(resid, pars)
if (nrow(outliers) == 0) {
} else {
outliers <- data.frame(id = i, outliers)
out.all <- bind_rows(out.all, outliers)
}
}
out.all <- filter(out.all, type == 'AO')
data$fix <- data$value
for (i in 1:nrow(out.all)) {
data$fix[data$id == out.all[i,1] & data$year == unique(data$year)[out.all[i,3]]] <-
mean(data$fix[data$id == out.all[i,1]])
}