楼主: 爱萌
56837 194

大家来讨论一下,SAS怎样才能读入就处理,这样能够处理无限大的数据   [推广有奖]

31
abelus 发表于 2009-6-27 15:14:37 |只看作者 |坛友微信交流群
说说数据处理的要求吧,具体要得到啥结果之类的,越详细越好。

我处理过千万条记录级别的数据,SAS完全可以胜任。
爱萌 发表于 2009-6-27 01:09
邓贵大 发表于 2009-6-26 10:25
我觉得唯有像楼主那样的人材才可以处理无限大~~的数据!
这说明你还没有真正处理过数据
我处理过最多的时候15GB的数据
用服务器和c++ 处理的
我对SAS的爱好决定了,我会思考这个问题
数据记录我见过1700万条记录的数据,不知道怎么用SAS处理,
我总不能什么都用C++写吧
请不要笑话俺,
俺是农村娃,呵呵

使用道具

32
天上人间 发表于 2009-6-28 22:44:15 |只看作者 |坛友微信交流群
不太懂{:2_32:}{:2_25:}

使用道具

33
家人 发表于 2009-6-29 07:47:07 |只看作者 |坛友微信交流群
用ORACLET处理大型数据最好不过
风火家人,君子以言有物而行有恒。

使用道具

34
爱萌 发表于 2009-6-30 00:02:59 |只看作者 |坛友微信交流群
marloneusa 发表于 2009-6-24 21:24
22# edwardhuanghz

我觉得这里应当考虑的是模型的计算和优化。
如果是模型的计算和优化,
到计量经济与统计中,
SAS版就是尽可能挖掘SAS的能力
最恨对我说谎或欺骗我的人

使用道具

35
爱萌 发表于 2009-6-30 00:06:02 |只看作者 |坛友微信交流群
[quote]abelus 发表于 2009-6-27 15:14
说说数据处理的要求吧,具体要得到啥结果之类的,越详细越好。

我处理过千万条记录级别的数据,SAS完全可以胜任。

想请教你怎么处理的,能不能发一个类似程序到我的wjw84221@yahoo.com.cn
以供研究之用,谢谢,
顺便把你的经验也写一下,
我谢谢您了
最恨对我说谎或欺骗我的人

使用道具

36
marloneusa 发表于 2009-6-30 02:46:55 |只看作者 |坛友微信交流群
爱萌 发表于 2009-6-30 00:06
abelus 发表于 2009-6-27 15:14
说说数据处理的要求吧,具体要得到啥结果之类的,越详细越好。

我处理过千万条记录级别的数据,SAS完全可以胜任。

想请教你怎么处理的,能不能发一个类似程序到我的wjw84221@yahoo.com.cn
以供研究之用,谢谢,
顺便把你的经验也写一下,
我谢谢您了
我也向学习学习。我们经常碰到GB以上的数据,化的时间很长才能处理机条简单的句子。如果是百万级的变量和千万计的纪录,那该如何是好。谢谢。我的地址是
marlone.zj@gmail.com
thanks.

使用道具

37
420948492 发表于 2009-6-30 16:22:35 |只看作者 |坛友微信交流群
通过看上面的贴好像自我感觉有误区,其实没有必要处理全部的数据,只要能得到近似正确的结果,还收要考虑效率的
统计学给我我们很多思路
一,选取案例,可以采取抽样的方式,实践证明若在原总体数据存在错误(可以是记录错的)的情况下,抽样的效果是要好于总体的。
二,上面说到有1000个变量,统计学,机器学习给我们提供了选择重要变量的方法,足以让我们解决此类问题。
三,没这个必要,今天你能处理GB级的,TB级的呢,数据挖掘给我们很好的借鉴,数据是以难以想象的速度增长的,计算能力虽然也在升级,但而这种升级来自于数据的压力,所以可以预测的说,计算能力感不上数据,何苦呢

呵呵,你呀,自认为统计的抽样是对的,
抽样的前提是大家独立,具有代表性,
而实际不是这样的,有很多知识需要从大量的数据挖掘,
如GENE microarry数据,基因的个数有5W,而样本只有10多个,你不要告诉我你抽去GENE研究
有人的地方就有江湖

使用道具

38
yyassassin 发表于 2009-6-30 19:24:59 |只看作者 |坛友微信交流群
提示: 作者被禁止或删除 内容自动屏蔽

使用道具

39
爱萌 发表于 2009-7-1 00:07:37 |只看作者 |坛友微信交流群
420948492 发表于 2009-6-30 16:22
通过看上面的贴好像自我感觉有误区,其实没有必要处理全部的数据,只要能得到近似正确的结果,还收要考虑效率的
统计学给我我们很多思路
一,选取案例,可以采取抽样的方式,实践证明若在原总体数据存在错误(可以是记录错的)的情况下,抽样的效果是要好于总体的。
二,上面说到有1000个变量,统计学,机器学习给我们提供了选择重要变量的方法,足以让我们解决此类问题。
三,没这个必要,今天你能处理GB级的,TB级的呢,数据挖掘给我们很好的借鉴,数据是以难以想象的速度增长的,计算能力虽然也在升级,但而这种升级来自于数据的压力,所以可以预测的说,计算能力感不上数据,何苦呢
呵呵,这说明你有统计抽样的意识,很好,
你的坚守统计阵地是好的,
我们为什么处理这么多数据,
我们能用抽样吗,不能,因为客户不许.
我们处理数据是为了客户,按照客户的要求处理的.
最恨对我说谎或欺骗我的人

使用道具

40
lycdtl 发表于 2009-7-1 10:44:09 |只看作者 |坛友微信交流群
很有用啊...........

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-21 19:58