楼主: 爱萌
56838 194

大家来讨论一下,SAS怎样才能读入就处理,这样能够处理无限大的数据   [推广有奖]

21
chitchatla 发表于 2009-6-24 05:16:25 |只看作者 |坛友微信交流群
fincomputing 发表于 2009-6-21 20:01
我觉得,考虑使用Matlab,R等替代软件,SAS处理大数据量可不是强项,呵呵~~
You got to be kidding me. I am using matlab and R,considering switching to sas to do some preliminary in data cleaning steps.

I thought unlike splus or R, sas DOES NOT do everything  in memory. The MEMSIZE is your upper limit in memory usage.

使用道具

22
edwardhuanghz 发表于 2009-6-24 09:37:14 |只看作者 |坛友微信交流群
大数据量的处理是放在ORACLE,或者放在GP里面,做完数据处理,再用SAS连到oracle上面处理的,一般来讲,千w级的数据量好像问题也不大吧!

使用道具

23
marloneusa 发表于 2009-6-24 21:24:48 |只看作者 |坛友微信交流群
22# edwardhuanghz

我觉得这里应当考虑的是模型的计算和优化。

使用道具

24
苗条肥仔 发表于 2009-6-25 21:08:07 |只看作者 |坛友微信交流群
raymonica 发表于 2009-6-19 21:44
我也比较头疼这个问题。 有时候需要花上几天把数据分成几个块。 把CLOB 字段转成csv, 再传入SAS. 太麻烦了。我正在申请直接把ORACLE 的数据库连上 SAS。 这样就不需要转来转去的。不知道那位高人有这方面的经验可以分享。
放在ORACLE上的数据,如果你有权限访问的话,直接在SAS的终端上使用ODBC,然后libname一下ODBC就OK了。。

原来们2太服务器,一台是SQL SERVER 一台是SAS。数据经常是转文本然后在导入。

后来用ODBC后就很方便了。。。

PS:ODBC好像不需要权限吧。只要你有数据库的访问权限就OK

使用道具

25
bluce 发表于 2009-6-25 22:42:24 |只看作者 |坛友微信交流群
我最近也遇到类似的问题,不过我不是用sas,而是spss clementine,也遇到数据容量限制的问题,

使用道具

26
邓贵大 发表于 2009-6-26 10:25:26 |只看作者 |坛友微信交流群
我觉得唯有像楼主那样的人材才可以处理无限大~~的数据!
Be still, my soul: the hour is hastening on
When we shall be forever with the Lord.
When disappointment, grief and fear are gone,
Sorrow forgot, love's purest joys restored.

使用道具

27
edwardhuanghz 发表于 2009-6-26 16:20:48 |只看作者 |坛友微信交流群
spss clementine需要配置一下ODBC的参数,速度还是可以的,大数据量的话,比如是上亿的记录,那么greenplum的优势比较明显,像关联推荐,如果用SAS,clementine计算,估计是出不来结果的,在GREENPLUM只有10分钟就出结果,优势非常明显~

使用道具

28
爱萌 发表于 2009-6-27 01:09:13 |只看作者 |坛友微信交流群
邓贵大 发表于 2009-6-26 10:25
我觉得唯有像楼主那样的人材才可以处理无限大~~的数据!
这说明你还没有真正处理过数据
我处理过最多的时候15GB的数据
用服务器和c++ 处理的
我对SAS的爱好决定了,我会思考这个问题
数据记录我见过1700万条记录的数据,不知道怎么用SAS处理,
我总不能什么都用C++写吧
请不要笑话俺,
俺是农村娃,呵呵
最恨对我说谎或欺骗我的人

使用道具

29
也亦尘 发表于 2009-6-27 15:02:29 |只看作者 |坛友微信交流群
原来SAS这么深奥啊~~我们本科学的还真简单~~~
禅既是吃饭的时候吃饭,睡觉的时候睡觉

使用道具

30
abelus 发表于 2009-6-27 15:12:43 |只看作者 |坛友微信交流群
对多个变量的处理,要用到SAS的marco了,如果变量命名比较规则,不会是太大的问题。

如果是记录条数多,SAS处理大数据是没啥问题的。

如果是想要在各条记录之间进行处理,就需要使用data步中一些比较少用到的clause了吧。

建议给个具体问题来讨论下,太抽象了,反而没针对性。
marloneusa 发表于 2009-6-19 22:17
我记得前几天有位高人贴了个招聘的帖子,关于如何同时处理1000万个变量的问题。我想他至少有这方面的经验,因为我觉得把数据读入内存肯定不是办法。望赐教。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-21 21:05