人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › SAS专版 › 如何提高效率拼接数据?

发帖

楼主: hnmjx

2465 6

如何提高效率拼接数据? [推广有奖]

0关注
0粉丝

大专生

61%

还不是VIP/贵宾

威望: 0 级
论坛币: 122 个
通用积分: 0
学术水平: 0 点
热心指数: 1 点
信用等级: 0 点
经验: 563 点
帖子: 72
精华: 0
在线时间: 45 小时
注册时间: 2012-10-6
最后登录: 2024-7-8

楼主

hnmjx 发表于 2013-11-21 17:10:32 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

我有两个表，需要并接。
第一个表内变量n1，n2,n3,n4,n5,n6 第二个表内变量n。（变量数据类型一致）
现在需要并接两个表，第一个表为准，第一个表内n1~n6，只要有一个等于第二个表内n，就并接。
现在我用sql 左连接，可是数据量大，效率很低，这一步需要运行10分钟。
希望有高手提供高效的并接方法。

谢谢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：如何提高高效率数据类型 sql 拼接如何

本帖被以下文库推荐

· bookstore of LV|主题: 135, 订阅: 7

沙发

soporaeternus 发表于 2013-11-22 11:38:18

表2 hash

Let them be hard, but never unjust

藤椅

邓贵大 发表于 2013-11-22 11:52:00

assuming n is unique in the 2nd table

data a;
do id=1 to 10000;
array n[6];
do _n_=1 to dim(n);
n[_n_] = ceil(20000*ranuni(12345));
end;
output;
end;
stop;
data b;
do _n_=1 to 10000;
n = ceil(20000*ranuni(54321));
output;
end;
stop;
proc sort data=b nodupkey;
by n;
proc sql;
create table c as
select a.*, b.n
from a left join b
on (b.n-a.n1)*(b.n-a.n2)*(b.n-a.n3)*(b.n-a.n4)*(b.n-a.n5)*(b.n-a.n6)=0;
quit;
data d;
set a;
if _n_=1 then do;
if 0 then set b;
declare hash _ht(dataset:'b', hashexp:16);
_ht.definekey('n');
_ht.definedata('n');
_ht.definedone();
end;
array _x[*] n1-n6;
array _y[6] _n1-_n6;
found = 0;
do i=1 to dim(_x);
if _ht.find(key: _x[i])=0 then do;
found=found+1;
_y[found] = n;
end;
end;
if found=0 then do;
call missing(n);
output;
end;
else do;
n = _y[1];
output;
do i=2 to found;
if index(peekclong(addrlong(_y[1]), 8*(i-1)), put(_y[i], rb8.)) = 0 then do;
n = _y[i];
output;
end;
end;
end;
drop i found _n1-_n6;
run;
proc sort data=c;
by id n;
proc sort data=d;
by id n;
proc compare base=c(keep=id n) compare=d(keep=id n);
run;

复制代码

The hash object in the big data step can be replaced with a format.
Alternatively, not quite as efficient but acceptable

proc sql;
create table e as
select a.*, b1.n as _n1, b2.n as _n2, b3.n as _n3, b4.n as _n4, b5.n as _n5, b6.n as _n6
from a left join b as b1 on a.n1=b1.n
left join b as b2 on a.n2=b2.n
left join b as b3 on a.n3=b3.n
left join b as b4 on a.n4=b4.n
left join b as b5 on a.n5=b5.n
left join b as b6 on a.n6=b6.n
;
quit;
data e;
set e;
array _y[*] _n1-_n6;
if n(of _y[*])=0 then output;
else do _n_=1 to dim(_y);
if _y[_n_] ne . then do;
n = _y[_n_];
output;
end;
end;
drop _n1-_n6;
proc sort data=e nodupkey;
by id n;
proc compare base=c compare=e;
run;

复制代码

Tweak the code above if n is not unique

Be still, my soul: the hour is hastening on
When we shall be forever with the Lord.
When disappointment, grief and fear are gone,
Sorrow forgot, love's purest joys restored.

板凳

hnmjx 发表于 2013-11-23 07:39:06 来自手机

hash对表的观测数量有限制的吧，不能太多。
我想知道有没有data数据步可以实现同样功能性
数据步效率高

报纸

吕小布韦 发表于 2013-11-24 11:46:27

有没有这种情况, 表二第一个观测的n和表一第一个观测的n1相等, 也和第二个观测的n5相等. 这样的话, 表二中一条观测就要和表一中一条观测匹配两次. 或者, 表一中第一个观测的两个变量n1 n2分别和表二的第一个观测, 第三个观测相等, 这样就要表一同一条观测和表二的两条观测匹配两次?

地板

hnmjx 发表于 2013-11-25 18:58:26 来自手机

没有。n1不会等于N2~N5

7楼

hnmjx 发表于 2013-11-25 22:05:17

我是用
proc sql;
create table t as
select
a.*,b.*
on a.n1=b.n or a.n2=b.n or a.n3=b.n or a.n4=b.n or a.n5=b.n;
quit;
结果提示我无法优化的catersian产品链接。
这段代码运行了10分钟。真受不了

返回列表

发帖

本版微信群

加好友,备注cda
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

如何提高效率拼接数据? [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本帖被以下文库推荐

浏览过的帖子

浏览过的版块

初级热心勋章

中级热心勋章

初级信用勋章

本版微信群

如何提高效率拼接数据? [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本帖被以下文库推荐

浏览过的帖子

浏览过的版块

初级热心勋章

中级热心勋章

初级信用勋章

本版微信群

扫码加我拉你入群