刚才无意中看到一个帖子,说道在SAS中if和where的区别,看后受益颇多啊,所以在此“借帖献佛”啦,哈、、、、、
Question:
将数据集SASHELP.workers第10到15条观测中满足条件"ELECTRIC>260"的观测提取出来,生成新的数据集tmp。
方法一:
data tmp;
set SASHELP.workers(firstobs=10 obs=15);
if ELECTRIC>260;
run;
proc print;
run;
Obs DATE ELECTRIC MASONRY
1 OCT77 278.6 288.7
2 NOV77 276.2 286.2
3 DEC77 274.6 276.7
4 JAN78 262.1 234.3
可见结果输出4条记录;
方法二:
data tmp;
set SASHELP.workers(firstobs=10 obs=15);
where ELECTRIC>260;
run;
proc print;
run;
Obs DATE ELECTRIC MASONRY
1 MAY78 278.0 295.5
2 JUN78 289.5 308.3
3 JUL78 296.6 306.9
4 AUG78 305.1 315.3
5 SEP78 307.8 310.6
6 OCT78 308.2 316.3
可见结果输出6条记录。
问题是上述两种方法为什么输出结果不一样?请注意if语句和where语句的区别:
区别:
1. if语句是面向PDV(logical program data vector)的,对当前PDV中的数据进行判断,满足条件时将其写入到外部数据集;where语句也是面向PDV的,它使用于从外部数据源读数据到PDV之前进行判断,当满足条件时才被写入到PDV。显然一个在写入PDV之前,一个在写入PDV之后,两者是有差异的。
2. 当没有数据集选项firstobs=10 obs=15时,if语句和where语句用法结果相同,但有这两个选项时效果就不同了。有这两个选项,if语句是从原数据集(或数据源)的观测记录进行计算个数,即从原数据集的第10号观测开始读入到PDV中,然后再判断是否满足if条件,若满足则输出到外部数据集,直到原数据集的第15号观测结束。而where语句是在读入到PDV之前就进行判断的,所以这里的firstobs的意思是从使得满足where条件的第10个观测开始,而不是原数据集的第10个观测开始。
鉴于问题处理要达到的目的,可见应该采取方法一,