楼主: shijz03
3419 4

[原创博文] 求教merge效率的问题 [推广有奖]

  • 0关注
  • 0粉丝

讲师

24%

还不是VIP/贵宾

-

威望
0
论坛币
6 个
通用积分
0.7000
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
38303 点
帖子
133
精华
0
在线时间
767 小时
注册时间
2008-3-10
最后登录
2024-5-25

楼主
shijz03 发表于 2011-4-26 13:55:42 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
有两个数据集进行merge,一个为主表数据较大(billion级别record,20-30variables),另一个从表数据较小(thousands级别record,<=5variable)当对两个表进行merge或者bridge的时候,使用哪种方法的效率更高呢?
我现在能想到的有
proc sql
data merge(with and without index)
hash (内存有限,不确定)
proc format cntlin and put format
求大牛指点一下,哪种方法的效率最高,能排个顺序就更好了,多谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Merge Variables thousands Thousand Variable thousands record

沙发
soporaeternus 发表于 2011-4-26 14:00:54
个人感觉算上merge的sort或者index(proc sql也需要)以及定义format的开销
若小表为k条数量级,那么hash不会有内存问题,format定义基本不占时间
效率为

hash>=format>merge~=proc sql

希望指正
已有 1 人评分热心指数 收起 理由
crackman + 2 鼓励积极发帖讨论

总评分: 热心指数 + 2   查看全部评分

Let them be hard, but never unjust

藤椅
shijz03 发表于 2011-4-26 15:15:52
2# soporaeternus
多谢,另外问一句,如果是表B也是billion级别的和A类似,hash被排除,鉴于format只能操作一个变量,那么剩下的data (算上sort,index)和sql,哪个更有优势?大概优势有多大呢?

板凳
soporaeternus 发表于 2011-4-26 15:58:07
这个还真的不好说
不过题外一句是,如果这样规模的表原来在数据库里,就还是让数据库去做吧,肯定比SAS快
Let them be hard, but never unjust

报纸
shijz03 发表于 2011-4-26 17:13:22
4# soporaeternus
谢了,我自己在测试一下吧。
后面还要用到一些统计方面的处理,而且最重要的一点:
用什么不用什么我说的不算⊙﹏⊙b汗......

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-2 20:44