在R语言中,处理缺失值的常用命令如下:
识别缺失值:
is.na(x) # 返回逻辑向量,TRUE表示缺失
complete.cases(x) # 返回逻辑向量,TRUE表示非缺失计算缺失值数量:
sum(is.na(x)) # 计算向量x中的缺失值个数
colSums(is.na(df)) # 计算数据框df各列的缺失值个数删除缺失值:
na.omit(x) # 删除向量或数据框中的缺失值(或含缺失的行)
df[complete.cases(df), ] # 等价于na.omit(df)填充缺失值:
x[is.na(x)] <- 0 # 用0填充
x[is.na(x)] <- mean(x, na.rm = TRUE) # 用均值填充
x[is.na(x)] <- median(x, na.rm = TRUE) # 用中位数填充高级插补(需安装包):
install.packages("mice") # 首次使用需安装
library(mice)
imputed <- mice(df) # 多重插补
completed <- complete(imputed) # 获取插补后的数据
以上命令可直接在R控制台运行,无需生成表格。


雷达卡


京公网安备 11010802022788号







