人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › SAS专版 › 求问提高SAS读取数据效率的方式

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: luyoung

1765 1

[问答] 求问提高SAS读取数据效率的方式 [推广有奖]

2关注
0粉丝

本科生

50%

还不是VIP/贵宾

威望: 0 级
论坛币: 1073 个
通用积分: 36.0396
学术水平: 0 点
热心指数: 5 点
信用等级: 0 点
经验: 847 点
帖子: 35
精华: 0
在线时间: 120 小时
注册时间: 2016-1-21
最后登录: 2024-1-31

楼主

luyoung 发表于 2018-3-1 11:00:26 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

背景介绍：
      数据库：ORACLE
      网络方式：VPN
      需求：读取多张含json的数据的表，当前数据库内包含大量数据，只需要处理近一周的数据即可。
      核心问题：数据读取太慢！
      小障碍：1.因数据库内无索引，部分表无可用时间字段进行筛选。
                  2.VPN网络不稳定导致不能测试代码读数效率。
求教可以有效提高SAS读取数据的效率的方式。

个人已尝试多种方式，但是效率颠覆之前的一些认知，并未有效提高效率，方式如下：

方式1：*col2为案件的通用编号

connect to oracle as data (user=XXX password=XXXXXX path=XXXX);
create table TEMP as
select * from connection to data(
select * from(
select a.col1,
c.col2,
row_number()over(partition by c.col2 order by c.col2,c.time desc) as rm
from AA.TAB1 a
inner join AA.TAB2 b on a.KEY1=b.KEY1
inner join AA.TAB3 c on c.KEY2=b.KEY2
where b.id is not null
and to_char(c.time,'yyyy-mm-dd')>=to_char(sysdate-1,'yyyy-mm-dd')
)where rm=1
);
disconnect from data;
quit;

复制代码

方式2：

libname AA oracle user=XXX password=XXXXXX path='XXXX' schema=AA;
create table TEMP as
select a.col1,
c.col2,
c.time
from AA.TAB1 a
inner join AA.TAB2 b on a.KEY1=b.KEY1
inner join AA.TAB3 c on c.KEY2=b.KEY2
where b.id is not null
and to_char(c.time,'yyyy-mm-dd')>=to_char(sysdate-1,'yyyy-mm-dd');
quit;
proc sort data=TEMP;by KEY2 descending time;run
data TEMP ;
set TEMP;
by KEY2;
if first.KEY2;
run;

复制代码

方式3：

libname AA oracle user=XXX password=XXXXXX path='XXXX' schema=AA;
data TAB1;
set AA.TAB1(keep=KEY1 col1);
run;
data TAB2;
set AA.TAB2(
keep=KEY1 KEY2
where=(id^='')
);
run;
data TAB3;
set AA.TAB3(
keep=KEY2 col2 time
where=(to_char(time,'yyyy-mm-dd')>=to_char(sysdate-1,'yyyy-mm-dd'))
);
run;
proc sort data=TAB3;by KEY2 descending time;run
data TAB3 ;
set TAB3;
by KEY2;
if first.KEY2;
run;
proc sql;
create table TEMP as
select a.col1,
c.col2
from TAB1 a
inner join TAB2 b on a.KEY1=b.KEY1
inner join TAB3 c on c.KEY2=b.KEY2;
quit;

复制代码

其中data步这块，尝试了几种方式提高效率，但是从时间上看where= firstobs= _n_这些都没有起到提高效率的作用，如：

data TAB2;
set AA.TAB2(
keep=KEY1 KEY2
firstobs=10000000 *保证前10000000条数据不涉及当前需求
);
where id^=''
run;
data TAB2;
set AA.TAB2(keep=KEY1 KEY2);
_n_>=10000000 *保证前10000000条数据不涉及当前需求
where id^=''
run;

复制代码

求解惑，谢谢！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：读取数据 inner join Disconnect connection partition

[问答] 求问提高SAS读取数据效率的方式 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[问答] 求问提高SAS读取数据效率的方式 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群