请选择 进入手机版 | 继续访问电脑版
楼主: crazygoing
26263 39

[程序分享] 病例对照、匹配(配对)抽样 SAS 程序(原创) [推广有奖]

  • 0关注
  • 47粉丝

教授

29%

还不是VIP/贵宾

-

威望
1
论坛币
4821 个
通用积分
21.8270
学术水平
165 点
热心指数
203 点
信用等级
146 点
经验
48691 点
帖子
441
精华
1
在线时间
1325 小时
注册时间
2007-11-9
最后登录
2023-4-5

crazygoing 发表于 2014-1-3 10:46:58 |显示全部楼层 |坛友微信交流群
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
最近需要用到sas来对我的一个数据进行1:1抽样,我在网上找了些资料看,没怎么看懂,于是自己想了一个思路来编写这个抽样程序,现分享给大家。
首先,数据库js如下,含有唯一变量ID,需要匹配的变量 shcool、grade、class和age,case是定义变量,1是病例,0是对照。抽样要求school、grade、class要相同,age相差不超过2岁。
QQ截图20140103103257.png

先说我的思路,首先是生成病例库和对照库, 然后依次从病例库中抽选1条,然后按照条件从对照库选择符合的样本组成待抽选库,然后从这个待抽选库中随机抽选1条,最后把抽出的这条从对照库中剔除,然后重复上述过程直到每条病例都匹配完成,最后合并抽出来的样本。
代码如下:
  1. proc sort data=js out=a1;
  2. by school grade class case age;
  3. data a1;set a1;
  4. pp=compress(school||grade||class); *班级匹配变量pp;
  5. run;
  6. data a_case a_control;set a1;
  7. if case=1 then output a_case; *病例数据集a_case;
  8. if case=0 then output a_control; *对照数据集a_control;
  9. run;

  10. %macro ss;
  11. proc datasets lib=work;delete sample;run;*清除前次抽选样本,方便重复运行宏抽样程序;
  12. proc sql noprint;
  13. select count(*) into: num from a_case; *统计病例个数;
  14. %do i=1 %to #
  15. %let k=%eval(&i-1);
  16. proc sql noprint;
  17. select id into: idx separated by ' ' from a_case;  *病例ID号 到宏idx;
  18. %let xx=%scan(&idx,&i,' ') ;
  19. data case&i;set a_case;
  20. if id=&xx then call symput("pp_v",pp); *相同匹配条件pp;
  21. if id=&xx then call symput("age_v",age); run; *范围匹配条件age;
  22. data control&i;set a_control;
  23. if pp="&pp_v" and abs(age-&age_v)<3; run; *生成符合匹配条件control样本;
  24. proc surveyselect noprint data=control&i method=srs n=1 out=sample&i seed=1000;        *n=1 ,1:1匹配;
  25. data a_control;set a_control sample&i; run;
  26. proc sql noprint;
  27. create table a_control as  select * from a_control  group by id having n(id)=1;        *剔除已选择control样本;
  28. %end;
  29. data sample;set sample:;run; *生成匹配样本库;
  30. data hb;set a_case sample;run; *生成总库;
  31. proc datasets lib=work;save a1 js a_case a_control sample hb; run; *清除过程文件;
  32. %mend;
  33. %ss;
复制代码
最后,说说程序缺陷,首先是运行效率低,因为是循环语句反复生成数据库,病例较多时,运行肯定慢; 其次未考虑到匹配未成功的情况;第三,程序还是有点啰嗦。 仅供参考。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:病例对照 proc sql compress datasets separate school 数据库 程序 网上 样本

已有 4 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
092811 + 1 + 1 热心帮助其他会员
ahzzr3711 + 1 + 1 + 1 精彩帖子
crackman + 100 鼓励积极发帖讨论
webgu + 100 + 100 + 5 + 5 + 5 精彩帖子

总评分: 经验 + 200  论坛币 + 100  学术水平 + 7  热心指数 + 7  信用等级 + 6   查看全部评分

本帖被以下文库推荐

  • · SAS学习|主题: 265, 订阅: 65
  • · MyLib|主题: 409, 订阅: 41
tmdxyz 发表于 2014-1-4 05:13:37 |显示全部楼层 |坛友微信交流群

使用道具

mingfeng07 学生认证  发表于 2014-3-14 14:33:13 |显示全部楼层 |坛友微信交流群
建议你数据还是直接上传比较好,截图感觉不太方便使用
欢迎扫一扫我头像关注, 不定期分享SAS技术知识。

使用道具

zhusd 发表于 2014-4-28 18:53:00 |显示全部楼层 |坛友微信交流群
为何跑完程序出来的总库case和control并不是1:1

使用道具

jeozu 发表于 2014-4-28 22:14:11 |显示全部楼层 |坛友微信交流群
  1. proc sql noprint;
  2. create table final as
  3. select a.id as treated
  4. , b.id as control
  5. , a.school as school
  6. , a.grade as grade
  7. , a.class as class
  8. , a.age as age_treated
  9. , b.age as age_control
  10. from js a, js b
  11. where a.school = b.school
  12. and a.grade = b.grade
  13. and a.class = b.class
  14. and abs(a.age - b.age) le 2
  15. and a.id ^= b.id
  16. ;
复制代码

使用道具

crazygoing 发表于 2014-4-29 09:27:13 |显示全部楼层 |坛友微信交流群
jeozu 发表于 2014-4-28 22:14
大侠,你这个代码主要是匹配,但不是随机的。不能用来抽样。

使用道具

jeozu 发表于 2014-4-29 10:23:03 |显示全部楼层 |坛友微信交流群
crazygoing 发表于 2014-4-29 09:27
大侠,你这个代码主要是匹配,但不是随机的。不能用来抽样。
再跑一个proc surveyselect 或者data step抽样就可以了。。

使用道具

crazygoing 发表于 2014-4-29 11:43:49 |显示全部楼层 |坛友微信交流群
补充一下模拟数据供下载测试
模拟数据.xls (36.5 KB)

使用道具

zhusd 发表于 2014-4-29 13:54:04 |显示全部楼层 |坛友微信交流群
jeozu 发表于 2014-4-28 22:14
楼主的意思是把这一段程序加进去吗?

使用道具

zhusd 发表于 2014-4-29 14:11:30 |显示全部楼层 |坛友微信交流群
我有一个数据库,暂且也命名为js,唯一变量ID,需要匹配的变量gender和age,case是定义变量,1是病例,0是对照。抽样要求gender相同,age相差不超过2岁,1:1配对,求楼主帮忙,不甚感谢

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-29 03:49