第22章有个程序:
libname SASA "R:\Temp";
data SASA.ch22_2;
infile "R:\temp\ch22_2.txt";
retain address;
input type $1. @;
if type='H' then input @3 address $15.;
*if type='P';
*input @3 name $10. @13 age 3. @16 Gender $1.;
run;
proc print data=sasa.ch22_2;
run;
其中ch22_2.txt的内容如下, 是我手动输进去的:
H 321 S. MAIN ST
P MARY E 21 F
P WILLIAM M 23 M
P SUSAN K 3 F
H 324 S. MAIN ST
P THOMAS H 79 M
P WALTER S 46 M
P ALICE A 42 F
P HARYANN A 20
P JOHN S 16 M
H 325A S.MAIN ST
P JAMES L 34 M
P LIZA A 31 F
H 325B S.MAIN ST
P MARGO K 27 F
P WILLIAN R 27 M
P ROBERT W 1 M
结果运行出来的是,与书中的结果不对应:
Obs address type
1 P MARY E 21 H
2 P MARY E 21 P
3 P MARY E 21 P
4 P THOMAS H 79 H
5 P THOMAS H 79 P
6 P THOMAS H 79 P
7 P THOMAS H 79 P
8 P THOMAS H 79 P
9 P JAMES L 34 H
10 P JAMES L 34 P
11 P MARGO K 27 H
12 P MARGO K 27 P
13 P MARGO K 27 P
但是如果把程序改成用datalines读取数据(数据完全一样),结果会是我们期望的那样:
libname SASA "R:\Temp";
data SASA.ch22_2;
*infile "R:\temp\ch22_2.txt";
retain address;
input type $1. @;
if type='H' then input @3 address $15.;
*if type='P';
*input @3 name $10. @13 age 3. @16 Gender $1.;
datalines;
H 321 S. MAIN ST
P MARY E 21 F
P WILLIAM M 23 M
P SUSAN K 3 F
H 324 S. MAIN ST
P THOMAS H 79 M
P WALTER S 46 M
P ALICE A 42 F
P HARYANN A 20
P JOHN S 16 M
H 325A S.MAIN ST
P JAMES L 34 M
P LIZA A 31 F
H 325B S.MAIN ST
P MARGO K 27 F
P WILLIAN R 27 M
P ROBERT W 1 M
;
run;
proc print data=sasa.ch22_2;
run;
结果:
Obs address type
1 321 S. MAIN ST H
2 321 S. MAIN ST P
3 321 S. MAIN ST P
4 321 S. MAIN ST P
5 324 S. MAIN ST H
6 324 S. MAIN ST P
7 324 S. MAIN ST P
8 324 S. MAIN ST P
9 324 S. MAIN ST P
10 324 S. MAIN ST P
11 325A S.MAIN ST H
12 325A S.MAIN ST P
13 325A S.MAIN ST P
14 325B S.MAIN ST H
15 325B S.MAIN ST P
16 325B S.MAIN ST P
17 325B S.MAIN ST P
这是为什么呢? 我研究了半天, 发现这里有一个隐晦的陷井:
input @3 address $15.;
实际上, 数据文件ch22_2.txt, 从第3列开始到最后,只有14个列. 但是在formatted input中输入的是$15,导致了SAS指针向下移动一个数据行.
想要解决这个问题有几个方法:
1)在infile语句后面加上Truncover选项;
2)把input语句改为input @3 address $14.;(属于临时救急,如果数据不能对齐的话还是会有问题)
3)在ch22_2.txt每一行后面补上空格,让它能够满足input的需求;
那为什么datalines语句中没有加这些东西也能正确读取呢? 搜了一下论坛, 有前辈说datalines读取数据时, 会自动在后面补上(80-n)个空格...现在终于明白了为什么有些数据软件导出的文本数据, 会用空格一直填到column 80.