7.1描述性统计分析
>vars<-c("mpg","hp","wt")
>head(mtcars[vars])
mpg hp wt
MazdaRX4 21.0 110 2.620
MazdaRX4 Wag 21.0 110 2.875
Datsun710 22.8 93 2.320
Hornet4 Drive 21.4 110 3.215
HornetSportabout 18.7 175 3.440
Valiant 18.1 105 3.460
7.1.1方法云集
对于基础安装,你可以使用summary()函数来获取描述性统计量。
>summary(mtcars[vars])
mpg hp wt
Min. :10.40 Min. :52.0 Min. :1.513
1st Qu. :15.43 1st Qu. : 96.5 1st Qu. :2.581
Median :19.20 Median :123.0 Median :3.325
Mean :20.09 Mean :146.7 Mean :3.217
3rd Qu.:22.80 3rd Qu. :180.0 3rd Qu. :3.610
Max. :33.90 Max. :335.0 Max. :5.424
summary()函数提供了最小值、最大值、四分位数和数值型变量的均值,以及因子向量和逻
辑型向量的频数统计
apply()函数或sapply()函数计算所选择的任意描述性统计量。对于sapply()函数,其使用格式为:
sapply(x,FUN,options)
其中的x是你的数据框(或矩阵),FUN为一个任意的函数。如果指定了options,它们将被传递
给FUN。你可以在这里插入的典型函数有mean、sd、var、min、max、median、length、range
和quantile。函数fivenum()可返回图基五数总括(Tukey’s five-number summary,即最小值、
下四分位数、中位数、上四分位数和最大值)。
通过sapply()计算描述性统计量
>mystats<-function(x,na.omit=FALSE){
+ if(na.omit)
+x<-x[!is.na(x)]
+m<-mean(x)
+n=length(x)
+s<-sd(x)
+skew<-sum((x-m)^3/s^3)/n
+kurt<-sum((x-m)^4/s^4)/n-3
+return(c(n=n,mean=m,stdev=s,skew=skew,kurtosis=kurt))
+ }
>sapply(mtcars[vars],mystats)
mpg hp wt
n 32.000000 32.0000000 32.00000000
mean 20.090625 146.6875000 3.21725000
stdev 6.026948 68.5628685 0.97845744
skew 0.610655 0.7260237 0.42314646
kurtosis-0.372766 -0.1355511 -0.02271075
Hmisc包中的describe()函数可返回变量和观测的数量、缺失值和唯一值的数目、平均值、
分位数,以及五个最大的值和五个最小的值
通过Hmisc包中的describe()函数计算描述性统计量:
>describe(mtcars[vars])
mtcars[vars]
3 Variables 32 Observations
---------------------------------------------------------------
mpg
n missing unique Info Mean .05 .10
32 0 25 1 20.09 12.00 14.34
.25 .50 .75 .90 .95
15.43 19.20 22.80 30.09 31.30
lowest: 10.4 13.3 14.3 14.7 15.0
highest:26.0 27.3 30.4 32.4 33.9
---------------------------------------------------------------
hp
n missing unique Info Mean .05 .10
32 0 22 1 146.7 63.65 66.00
.25 .50 .75 .90 .95
96.50 123.00 180.00 243.50 253.55
lowest: 52 62 65 66 91,highest: 215 230 245 264 335
---------------------------------------------------------------
wt
n missing unique Info Mean .05 .10
32 0 29 1 3.217 1.736 1.956
.25 .50 .75 .90 .95
2.581 3.325 3.610 4.048 5.293
lowest: 1.513 1.615 1.835 1.935 2.140
highest:3.845 4.070 5.250 5.345 5.424
pastecs包中有一个名为stat.desc()的函数,它可以计算种类繁多的描述性统计量。使用
格式为:stat.desc(x,basic=TRUE,desc=TRUE,norm=FALSE,p=0.95)
其中的x是一个数据框或时间序列。若basic=TRUE(默认值),则计算其中所有值、空值、缺失
值的数量,以及最小值、最大值、值域,还有总和。若desc=TRUE(同样也是默认值),则计算
中位数、平均数、平均数的标准误、平均数置信度为95%的置信区间、方差、标准差以及变异系
数。最后,若norm=TRUE(不是默认的),则返回正态分布统计量,包括偏度和峰度(以及它们
的统计显著程度)和Shapiro–Wilk正态检验结果。这里使用了p值来计算平均数的置信区间(默
认置信度为0.95)。
通过pastecs包中的stat.desc()函数计算描述性统计量
>stat.desc(mtcars[vars])
mpg hp wt
nbr.val 32.0000000 32.0000000 32.0000000
nbr.null 0.0000000 0.0000000 0.0000000
nbr.na 0.0000000 0.0000000 0.0000000
min 10.4000000 52.0000000 1.5130000
max 33.9000000 335.0000000 5.4240000
range 23.5000000 283.0000000 3.9110000
sum 642.9000000 4694.0000000 102.9520000
median 19.2000000 123.0000000 3.3250000
mean 20.0906250 146.6875000 3.2172500
SE.mean 1.0654240 12.1203173 0.1729685
CI.mean.0.95 2.1729465 24.7195501 0.3527715
var 36.3241028 4700.8669355 0.9573790
std.dev 6.0269481 68.5628685 0.9784574
coef.var 0.2999881 0.4674077 0.3041285
psych包也拥有一个名为describe()的函数,它可以计算非缺失值的数量、
平均数、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度和平均
值的标准误。通过psych包中的describe()计算描述性统计量:
> describe(mtcars[vars])
vars n mean sd median trimmed mad min max
mpg 1 32 20.09 6.03 19.20 19.70 5.41 10.40 33.90
hp 2 32 146.69 68.56 123.00 141.19 77.10 52.00 335.00
wt 3 32 3.22 0.98 3.33 3.15 0.77 1.51 5.42
range skew kurtosis se
mpg 23.50 0.61 -0.37 1.07
hp 283.00 0.73 -0.14 12.12
wt 3.91 0.42 -0.02 0.17