处理很大的数据集时遇到的问题 [推广有奖]

0关注
0粉丝

硕士生

37%

还不是VIP/贵宾

威望: 0 级
论坛币: 945 个
通用积分: 0
学术水平: 1 点
热心指数: 1 点
信用等级: 0 点
经验: 1963 点
帖子: 120
精华: 0
在线时间: 170 小时
注册时间: 2010-4-9
最后登录: 2016-1-9

楼主

librarynow 发表于 2010-10-20 11:08:30 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

在此请教各位高手，我现在要从一个很大的数据集（有120万个观测）中生成一个新的小一点（1万个左右的观测）的数据集。问题是：
1. 原数据集的400多个变量只要保留70个，这70个的变量的顺序要根据需要重新排一下。而且还要生成一些新的变量夹在这70个变量之中。对于处理这样的大的数据集没有经验，害怕占用太多CPU时间，所以想问一下，怎么能比较快地生成新数据集？
如果我还想保证变量的顺序，例如原数据集的变量名var1, var2, var3, var4, var5都将被选中进入新的数据集，但是新的顺序是var3, var2, var1, var4, var5。而且要在var4和var5之间添加一个新的变量newvar1。我可以写set old_data_set (keep=var3 var2 var1 var4 var5); newvar1=....;那么在数据集输出成文本文件的时候，把newvar1写在var5的前面，就可以保证所要求的顺序吗？
2. 需要对一些变量做分层不等比例取样来生成新的数据集。
对于大的数据集，可以用proc sql来进行信息汇总吗？担心CPU响应时间会很长，因为很多人在用同一个SAS服务器，所以怕影响整个的系统性能。
谢谢大家了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏1 回帖

关键词：数据集 proc sql SAS服务器数据集输出文本文件数据集

本帖被以下文库推荐

· SAS精彩问答|主题: 2530, 订阅: 30

沙发

soporaeternus 发表于 2010-10-20 11:22:50

对于第一个问题，我的做法是用retain来确定新数据集的变量顺序
对于第二个问题，如果仅仅是汇总的话，过程步，data步，sql都能做，效率一说也是见仁见智

而且我的观点是，能占到CPU和内存是好事，就怕都把时间都耗在IO上，呵呵

对于百万记录，400个变量的数据规模，以上这些简单的操作，一般的服务器应该不耗太长时间