人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › SAS专版 › 求助：怎么识别相同数据变量

发帖

楼主: 小春1988

2149 5

[原创博文] 求助：怎么识别相同数据变量 [推广有奖]

0关注
4粉丝

VIP1

已卖：3份资源

博士生

还不是VIP/贵宾

威望: 0 级
论坛币: 495 个
通用积分: 0
学术水平: 1 点
热心指数: 1 点
信用等级: 1 点
经验: 2739 点
帖子: 137
精华: 0
在线时间: 274 小时
注册时间: 2008-9-16
最后登录: 2021-12-18

楼主

小春1988 发表于 2010-9-25 10:28:58 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

请教大家一个问题，如果我有两个数据集，第一个数据集中有100个变量，第二个数据集有10个变量，并且第二个数据集中的10个变量的数据都在第一个数据集的100个变量之中，但是两个数据集的变量名是不一样的，请教怎么识别出第二个数据集中那10个变量在第一个数据集中的变量名。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：请教大家一个问题数据集

沙发

xiaoxiahu0571 发表于 2010-9-25 11:45:33

proc compare 也许可以

藤椅

chouxiangdaishu 发表于 2010-9-25 15:28:25

变量命名不规范。找你们的DBA骂一顿。

板凳

bobguy 发表于 2010-9-26 04:18:42

小春1988 发表于 2010-9-25 10:28
请教大家一个问题，如果我有两个数据集，第一个数据集中有100个变量，第二个数据集有10个变量，并且第二个数据集中的10个变量的数据都在第一个数据集的100个变量之中，但是两个数据集的变量名是不一样的，请教怎么识别出第二个数据集中那10个变量在第一个数据集中的变量名。

Use proc means to calculate n mean std min max, if all of them are equal, then they are very very very like to be them same.

报纸

soporaeternus 发表于 2010-9-26 08:59:28

可能需要考虑变量相同是指类似两个集合的相等，即无序相等
还是对于某个ID的有序相等
最为一般的方法就是将两个数据集的每个变量按本身排序，然后两两比较，理论上需要比较100×10次
针对某些情况可以优化减少对比次数

Let them be hard, but never unjust

地板

crackman 发表于 2010-9-26 12:54:11

data crackman1;
input x y z h;
datalines;
1 2 3 4
3 4 5 5
6 7 8 6
8 9 0 7
6 5 3 8
;
run;
data crackman2;
set crackman1;
keep y h;
rename y=n h=p;
run;
proc transpose data=crackman1 out=crackman11;
var _all_;
run;
proc transpose data=crackman2 out=crackman22;
var _all_;
run;
proc append base=crackman11 data=crackman22;
run;
data crackman11;
set crackman11;
n=compress(cat(of col1-col5));
run;
proc sort data=crackman11;
by n;
run;
data crackman11;
set crackman11;
by n;
if not (first.n and last.n);
run;

这仅仅是一个思路
可以参考

博客http://crackman.net