楼主: yz7891
9230 16

[问答] SAS数据集split问题 [推广有奖]

  • 0关注
  • 0粉丝

本科生

86%

还不是VIP/贵宾

-

威望
0
论坛币
18 个
通用积分
0
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
615 点
帖子
100
精华
0
在线时间
61 小时
注册时间
2010-3-30
最后登录
2019-6-3

楼主
yz7891 发表于 2011-1-5 13:08:05 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我有个数据集有2000万条数据3000个变量,想做PROC MEANS数据量过大,现在想把这个数据集分成10份来分别proc means 然后set在一起,想按里面的变量id来进行分,一个id只能在一个数据集里面出现,请问下这个应该怎么分??
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:sas数据集 split 数据集 means mean SAS 数据集 split

回帖推荐

soporaeternus 发表于8楼  查看完整内容

由于by语句的存在,需要sort活着index,不知道楼主的机器是否能承受这样的开销

本帖被以下文库推荐

沙发
456852 发表于 2011-1-5 13:34:01
data a1 a2...a10;
set b;
if id=1 then output a1;
else if id=2 then output a2;
.....
run;

藤椅
yz7891 发表于 2011-1-5 13:37:17
.....我是想能不能稍微平均点。因为这2000万条数据里面有180万条id。而且每个Id的数量是不一样的 有多有少,能不能分出来的每个数据集在200万条左右。。。

板凳
456852 发表于 2011-1-5 13:48:43
我没弄懂你意思,目前你有2个要求:
1)将2000万条记录分成10个小数据集,平均每个200万条左右。
2)每个数据集里只能有一个id,也就是说一个数据集200万条记录的id必须是一样的。
我这么理解对么?

报纸
yz7891 发表于 2011-1-5 13:52:32
不是每个数据集里面只能有一个ID 是一个id的所有记录只能存在于一个数据集里面 不能被分割成几部分存放在多个数据集里面,

地板
yz7891 发表于 2011-1-5 13:54:55
比如说
1
1
1
2
2
3
3
3



这些id如果分成2份的话 可以分成如下的
第一个数据集
1
1
1
第二个数据集
2
2
3
3
3

而不能是像如下一样
第一
1
1
1
2
第二
2
3
3
3

7
456852 发表于 2011-1-5 13:59:02
那最直接的办法就是按照id排序,然后在数据的每一个十分位点,即第200万条,400万条,600万条。。。的地方进行人工微调,也就是手动上移一个id或者下移一个id,你这里就10个,应该很快的。

8
soporaeternus 发表于 2011-1-5 14:12:47
  1. %MACRO T(N);
  2. data
  3.         %do i=1 %to &N %by 1;
  4.                 r&i
  5.         %end;
  6. ;
  7.         set b nobs=nobs;
  8.         by id;
  9.         if first.id and n>=nobs/&N then do;
  10.                 outputflg+1;
  11.                 n=0;
  12.         end;
  13.         n+1;
  14.         %do i=1 %to &N %by 1;
  15.                 %if &i>=2 %then %do;else %end;
  16.                 if outputflg=%eval(&i-1) then output r&i;
  17.         %end;
  18.         drop outputflg n;
  19. run;
  20. %MEND T;
  21. %T(20);
复制代码
由于by语句的存在,需要sort活着index,不知道楼主的机器是否能承受这样的开销
已有 1 人评分学术水平 热心指数 收起 理由
yz7891 + 1 + 1 好的意见建议

总评分: 学术水平 + 1  热心指数 + 1   查看全部评分

Let them be hard, but never unjust

9
elek.me 发表于 2011-1-5 14:30:59
不太明白为什么说这个数据量过大。
proc means 没问题的。
我的博客: http://elek.me/sas
联系我: http://about.me/elek

10
yz7891 发表于 2011-1-5 14:34:39
9# elek.me
可能是机器不好 扛不住吧,2200万条观测值,3000个变量,
class id;
var 剩余3000个变量;

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-20 11:48