楼主: 小春1988
2066 5

[原创博文] 求助:怎么识别相同数据变量 [推广有奖]

  • 0关注
  • 4粉丝

VIP1

已卖:3份资源

博士生

0%

还不是VIP/贵宾

-

威望
0
论坛币
495 个
通用积分
0
学术水平
1 点
热心指数
1 点
信用等级
1 点
经验
2739 点
帖子
137
精华
0
在线时间
274 小时
注册时间
2008-9-16
最后登录
2021-12-18

楼主
小春1988 发表于 2010-9-25 10:28:58 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
请教大家一个问题,如果我有两个数据集,第一个数据集中有100个变量,第二个数据集有10个变量,并且第二个数据集中的10个变量的数据都在第一个数据集的100个变量之中,但是两个数据集的变量名是不一样的,请教怎么识别出第二个数据集中那10个变量在第一个数据集中的变量名。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:请教大家一个问题 数据集

沙发
xiaoxiahu0571 发表于 2010-9-25 11:45:33
proc compare 也许可以

藤椅
chouxiangdaishu 发表于 2010-9-25 15:28:25
变量命名不规范。找你们的DBA骂一顿。

板凳
bobguy 发表于 2010-9-26 04:18:42
小春1988 发表于 2010-9-25 10:28
请教大家一个问题,如果我有两个数据集,第一个数据集中有100个变量,第二个数据集有10个变量,并且第二个数据集中的10个变量的数据都在第一个数据集的100个变量之中,但是两个数据集的变量名是不一样的,请教怎么识别出第二个数据集中那10个变量在第一个数据集中的变量名。
Use proc means to calculate n mean std min max, if all of them are equal, then they are very very very like to be them same.

报纸
soporaeternus 发表于 2010-9-26 08:59:28
可能需要考虑变量相同是指类似两个集合的相等,即无序相等
还是对于某个ID的有序相等
最为一般的方法就是将两个数据集的每个变量按本身排序,然后两两比较,理论上需要比较100×10次
针对某些情况可以优化减少对比次数
Let them be hard, but never unjust

地板
crackman 发表于 2010-9-26 12:54:11
data crackman1;
input x y z h;
datalines;
1 2 3 4
3 4 5 5
6 7 8 6
8 9 0 7
6 5 3 8
;
run;
data crackman2;
set crackman1;
keep y h;
rename y=n h=p;
run;
proc transpose data=crackman1 out=crackman11;
var _all_;
run;
proc transpose data=crackman2 out=crackman22;
var _all_;
run;
proc append base=crackman11 data=crackman22;
run;
data crackman11;
set crackman11;
n=compress(cat(of col1-col5));
run;
proc sort data=crackman11;
by n;
run;
data crackman11;
set crackman11;
by n;
if not (first.n and last.n);
run;



这仅仅是一个思路
可以参考

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-31 08:13