2.1.1
用MEANS语句描述数据
例 2.1 计算课本上习题1.2的平均数和标准差。
解 在进行分析之前,最好先建立一个外部数据文件。如果不建立外部数据文件,在作业流中输入数据也可以。一般来说,在数据量比较大,有可能重复使用时,最好建立一个数据文件。在这里我们创建一个称为2-1data.dat 的外部数据文件,存储在A盘中。用MEANS过程描述数据的最基本的程序如下:
options
linesize=76;
data
abc;
infile
‘a:\2-1data.dat’;
input
x;
run;
proc
means;
run;
提交SAS运行后,所得结果如下:
表2-1: 例2.1输出的结果
The SAS System
Analysis Variable : X
N | Mean | Std Dev | Minimum | Maximum |
250 | 63.2760000 | 3.0139941 | 55.0000000 | 70.0000000 |
打印的结果中包括:数据个数,平均数,标准差,最小值和最大值。这是MEANS语句在缺省时得到的基本结果。若需要对数据作更详细的描述,则要指明所需的统计量(关于统计量的概念见课本2.2.4)。用MEANS过程所计算的统计量,在这里也一并列出。下面还会反复提到“变量”这一名词,关于变量的概念见课本2.2.1。MEANS过程所计算的统计量是用关键词表示,这些关键词及其含义如下:
N:输入的观测值(观测值的概念见课本2.2.1)个数
NMISS:每个变量所含缺失值的个数
MEAN:变量的平均数
STD:变量的标准差
MIN:变量的最小值
MAX:变量的最大值
RANGE:变量的极差
SUM:变量所有值的和
VAR:变量的方差
USS:每一变量原始数据的平方和(未校正平方和)
CSS:每一变量的离均差平方和(校正平方和)
CV:变异系数
STDERR:每一变量的标准误差(平均数的标准差)
T:在H0:μ= 0时的t
值(见课本5.1.4)
PRT:在H0:μ= 0 的假设下,统计量t 大于t
临界值绝对值的概率(见课本4.1.1)
SKEWNESS:偏斜度
KURTOSIS:峭度
CLM:置信区间的上限和下限(见课本6.2.1)
LCLM:置信区间的下限
UCLM:置信区间的上限
另外,在PROC
MEANS语句中还有12个选项,其中几个主要选项如下:
DATA=(SAS 数据集):指出SAS 数据集的名称,若省略,则使用最近产生的数据集
MAXDEC=(数字):指出所输出的结果中,小数部分的最大位数(0-8),缺省时为8 位
FW=(域宽):指出打印的结果中每个统计量的域宽,缺省时为12
VARDEF=(DF / N):VARDEF=DF为缺省值,表示计算方差时,使用n-1 作分母,
VARDEF=N表示计算方差时,使用观测值个数n 作分母
ALPHA=(α值):指出在计算置信区间时,选用的显著水平


雷达卡






京公网安备 11010802022788号







