dxystata 发表于 2011-8-8 20:52
用简单的数据集举个例子!
hhid wave id_1
231101013 1997 2311010131997
231101013 1997 2311010131997
231101013 2000 2311010132000
231101013 2004 2311010132004
231101013 2006 2311010132006
231101014 1997 2311010141997
231101014 2000 2311010142000
231101014 2004 2311010142004
231101014 2006 2311010142006
231101014 2009 2311010142009
231101015 1997 2311010151997
231101015 2000 2311010152000
231101015 2004 2311010152004
我的意思是一旦发现重复的id_1数据,就将该hhid的所有样本删除。我刚才自己痛苦的摸索出来了哈~~
duplicates tag id_1, gen(ta) //生成变量对重复数据赋值为1
bysort hhid: egen sd=sd(ta) //根据hhid生成分组方差
keep if sd==0 | sd==. //同组内的方差若是不重复肯定为零,单个的hhid方差为缺失值。
drop ta sd