楼主: tangjingdong506
3489 7

怎样筛选所有变量值都完全相同的重复观测,也就是不能用by语句 [推广有奖]

  • 0关注
  • 0粉丝

小学生

28%

还不是VIP/贵宾

-

威望
0
论坛币
10 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
231 点
帖子
4
精华
0
在线时间
7 小时
注册时间
2007-9-14
最后登录
2016-7-20

楼主
tangjingdong506 发表于 2013-6-27 09:29:35 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我有十几个包含不同变量的数据集,每个数据集有30几个变量。针对每个数据集,我想提取它的完全重复的观测,请问该怎么编写程序,困惑了好久,热切等待高手的解答,谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:重复观测 变量值 不能用 编写程序 数据集 编写程序

沙发
playmore 发表于 2013-6-27 09:59:19
如果你的意思是指把重复的观测提出来,原始表格只留一个不重复的,我能想到的简单方法,先写下来

data have;
set have;
Obs=_N_;
run;

proc sort data=have out=have_nodup nodupkey;
run;

proc sql noprint;
create table want as
select * from have
where Obs not in (select Obs from have_nodup);
run;
playmore邀请您访问ChinaTeX论坛!!!进入ChinaTeX论坛

藤椅
bbwade 发表于 2013-6-27 10:08:37
提供下stata程序:
use data,clear
duplicates tag, g(newvar)
keep if newvar>=1
duplicates drop

板凳
tangjingdong506 发表于 2013-6-27 14:34:37
playmore 发表于 2013-6-27 09:59
如果你的意思是指把重复的观测提出来,原始表格只留一个不重复的,我能想到的简单方法,先写下来

data h ...
谢谢二楼的回复,不过运行之后显示如下错误:没有使用 BY 语句或没有指定 BY 变量。BY 语句必须与要排序的变量名一起使用。

报纸
boe 发表于 2013-6-27 14:38:47
maybe
  1. proc sort data=test out=nodupkey_test  dupout=dupkey_test nodupkey;
  2.     by _all_;
  3. run;
复制代码

Gorgeous girl , I love !

地板
playmore 发表于 2013-6-27 14:43:00
tangjingdong506 发表于 2013-6-27 14:34
谢谢二楼的回复,不过运行之后显示如下错误:没有使用 BY 语句或没有指定 BY 变量。BY 语句必须与要排序的 ...
嗯,按你的表格排序变量,在proc sort里加上by子句就好了
你没写明表格内容,我也就忘写了
playmore邀请您访问ChinaTeX论坛!!!进入ChinaTeX论坛

7
tangjingdong506 发表于 2013-6-27 17:24:54
playmore 发表于 2013-6-27 14:43
嗯,按你的表格排序变量,在proc sort里加上by子句就好了
你没写明表格内容,我也就忘写了
你好,由于have表里新生成了变量obs,因此have里不会出现完全相同的观测,所以不能用by _all_;又因为我的变量个数太多,不便于写在by 的后面,所以这个程序还是不太合适。

8
tangjingdong506 发表于 2013-6-27 17:59:47
哦,明白了,谢谢各位啦!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-1 09:23