楼主: mazheng23
11321 17

[问答] 急求教如何用SAS把以数据集随机分成2部分,一部分80%,另一部分20% [推广有奖]

11
马甲1号 发表于 2011-4-4 18:03:49
edumetric 发表于 2011-4-4 17:32
试试下面的语句可以吗。
DATA yourdata;
SET yourdata;
grpind=ranuni(123);      /****  生成随机分布变量  ****/
run;

data yourdata1 yourdata2;
set yourdata;
if grpind>=.80 then output yourdata1;
if grpind
这样的确可以,但是不严格。因为这样只能保证每条记录有80%的概率被选入yourdata2,20%的概率被选入yourdata1,却不能保证yourdata1的记录数恰好为总数的20%,yourdata2的记录数恰好为总数的80%。不知道楼主的真实意图是什么。

仔细想了想,还是应该取随机数,然后对随机数排序,按照总数的前20%来拆分数据集可能更符合后一种理解。
归欤!归欤!吾党之小子狂简,斐然成章,不知所以裁之。

12
edumetric 发表于 2011-4-4 18:19:20
如果是有确定的样本大小,当然是可以排序后取的。呵呵。现在不知道他是不是要求一定精确到两个样本一定是某个大小,所以只能这样模糊的给出了。
马甲1号 发表于 2011-4-4 18:03
edumetric 发表于 2011-4-4 17:32
试试下面的语句可以吗。
DATA yourdata;
SET yourdata;
grpind=ranuni(123);      /****  生成随机分布变量  ****/
run;

data yourdata1 yourdata2;
set yourdata;
if grpind>=.80 then output yourdata1;
if grpind
这样的确可以,但是不严格。因为这样只能保证每条记录有80%的概率被选入yourdata2,20%的概率被选入yourdata1,却不能保证yourdata1的记录数恰好为总数的20%,yourdata2的记录数恰好为总数的80%。不知道楼主的真实意图是什么。

仔细想了想,还是应该取随机数,然后对随机数排序,按照总数的前20%来拆分数据集可能更符合后一种理解。

13
mazheng23 发表于 2011-4-4 18:34:24
谢谢,谨遵军令~(不需要很精确的)

14
爱萌 发表于 2011-4-14 09:03:40
baoaibaobao 发表于 2011-4-4 17:30
直接用proc surveyselect  就可以
    proc surveyselect  data=test1 out=results1  method=srs samprate=0.2;
    run;

具体说明可以参考下面资料
1、SAS 中可以利用PROC suveryselect 过程实现各种抽样
         其一般形式是:
PROC SURVEYSELECT  data= method =   out= n=(or samprate=抽样比例) seed =n;
           strata ;
           id ;
run;

说明:method用来指定随机抽样方法的,其中SRS是指不放回简单随机抽样(Simple Random Samping);urs是指放回简单随机抽样(Unrestricted Random Sampling);sys是指系统抽样(Systematic Sampling)。seed用来指定随机种子数,为非负整数,取0则每次抽取的样本不同,若取大于0的整数,则下次抽样时若输入相同值即可得到相同的样本;id是指定从源数据集复制到样本数据集的变量,若缺省,则复制所有变量。
2、简单无重复随机抽样举例:
      /*按30%的比例从test数据集中抽取样本,并把样本输出到results数据集中*/
    proc surveyselect  data=test1 out=results1  method=srs samprate=0.3;
    run;

3、分层等比例随机抽样举例;
proc sort data=test2;
by 分层变量;
run; /**先用分层变量对总体样本进行排序/
proc surveyselect  data=test2 out=results2 method=srs samprate=0.1;
strata 分层变量;
run;  /*根据分层变量等比例从总体中抽取样本*/

4、分层不等比例抽样举例;
(1)手工设置抽样比例或者抽样数
proc sort data=test3;
by 分层变量;
run;                                                                   /**先用分层变量对总体样本进行排序/
proc surveyselect  data=test3 out=results3 method=srs
samprate=(0.1,0.3,0.5,0.2);                           /*根据分层情况设置每一层要抽取的比例*/
strata 分层变量;
run;                                                                /*根据分层变量不等比例从总体中抽取样本*/
   
proc surveyselect  data=test3 out=results3 method=srs
n=(30,20,50,40);                           /*根据分层情况设置每一层要抽取的样本数*/
strata 分层变量;
run;            
(2)根据抽样表进行不等比例抽样
proc sort data=test3;
by 分层变量;
run;                                                                   /**先用分层变量对总体样本进行排序/
proc surveyselect  data=test3 out=results3 method=SRS
samprate=samp_table;                           /*通过抽样比例数据集进行抽样,samp_table数据集中要包括分层变量 以及每一分层对应的抽样比例或者数量,如果按比例抽样变量必须用_rate_来命名抽样比例,如果是按数量抽样必须用_nsize_来命名抽样数量*/
strata 分层变量;
run;            
但并没有解决楼上的问题,你这些可以抽取20%,剩下对应的80%怎么放到另一个数据集中,还请赐教
最恨对我说谎或欺骗我的人

15
baoaibaobao 发表于 2011-4-14 10:12:06
14# 爱萌 不知道能否直接实现,想到了笨办法:
  1. proc surveyselect noprint data=have out=results1  method=srs samprate=0.2;
  2. run;
  3. proc sql noprint;
  4. create table results2 as
  5. select * from have
  6. except all
  7. select * from results1;
  8. quit;
复制代码

16
luckychll 发表于 2013-1-10 16:29:46
真的好好!详细的解决方法啊!

17
erzi_yhj 发表于 2013-1-16 14:22:56
假设原数据是mydata,20%到sample1,80%到sample2

proc sql;
create table temp as
select *,
         ranuni(123) as key,
         count(*) as total
from mydata
order by key;
quit;

data sample1 sample2;
set temp;
if _n_<=int(total*0.2) then output sample1;
else output sample2;
drop key total;
run;

proc datasets lib=work;
delete temp;
run;

18
hftz3326 学生认证  发表于 2017-2-15 13:08:35
edumetric 发表于 2011-4-4 17:32
试试下面的语句可以吗。
DATA yourdata;
SET yourdata;
真的太棒了,简单实用解决问题i,谢谢,受教了!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-25 19:59