请选择 进入手机版 | 继续访问电脑版
楼主: xt_jane
2919 6

如何截取重复数据 [推广有奖]

  • 0关注
  • 1粉丝

VIP1

大专生

63%

还不是VIP/贵宾

-

威望
0
论坛币
2165 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
495 点
帖子
36
精华
0
在线时间
33 小时
注册时间
2007-10-3
最后登录
2015-7-29

xt_jane 发表于 2015-7-10 20:56:16 |显示全部楼层 |坛友微信交流群

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

        有一组数据,字段分别为number date amount等等,对应的是贷款编号,时间和金额等数据,但是质量不好,数据有重复,想找出其中重复的数据,该如何编写程序呢,用proc sql和count来写,总是报错,求大神指教。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:重复数 proc sql amount Number Count 如何

mingfeng07 学生认证  发表于 2015-7-10 21:46:57 |显示全部楼层 |坛友微信交流群
  1. proc sql;
  2. create table want as select * from datasets group by number,date,amount having count(*)>=2;
  3. quit;
复制代码

使用道具

xt_jane 发表于 2015-7-11 17:38:47 |显示全部楼层 |坛友微信交流群
mingfeng07 发表于 2015-7-10 21:46
谢谢大牛 现在已发现确实有重复 可以通过loan_no这个字段排重
例如同一个申请号下如果loan_no相同则保留一个,不同则都保留,比如名下有3笔贷款,但是有六条记录,loan_no分别为1 2 3 3 2 1

使用道具

xt_jane 发表于 2015-7-11 17:41:03 |显示全部楼层 |坛友微信交流群
mingfeng07 发表于 2015-7-10 21:46
程序能不能这么些
proc sort data=tmp;
by appl_no loan_no;
run;
proc sort data=tmp out=tmp1 nodupkey;
by appl_no loan_no;
run;
可以这样去重吗 感觉怪怪的

使用道具

苹果叶 在职认证  发表于 2015-7-11 19:50:03 |显示全部楼层 |坛友微信交流群
xt_jane 发表于 2015-7-11 17:41
程序能不能这么些
proc sort data=tmp;
by appl_no loan_no;
  1. proc sort data=tmp out=tmp1 nodupkey;
  2. by appl_no loan_no;
  3. run;
复制代码
这一句就可以了,可以加 dupout=xx 来看到底是哪些重复了

使用道具

xt_jane 发表于 2015-7-11 20:55:31 |显示全部楼层 |坛友微信交流群
苹果叶 发表于 2015-7-11 19:50
这一句就可以了,可以加 dupout=xx 来看到底是哪些重复了
那如果需要把去重后的数据中的列变量loan_amount即贷款金额字段按照app_no来加总,但是新的表里一个appl_no就只有一条记录,即将一个客户的多条贷款记录加总后只保留一条新的记录,该怎么写呢

使用道具

苹果叶 在职认证  发表于 2015-7-11 21:16:33 |显示全部楼层 |坛友微信交流群
xt_jane 发表于 2015-7-11 20:55
那如果需要把去重后的数据中的列变量loan_amount即贷款金额字段按照app_no来加总,但是新的表里一个appl_ ...
  1. proc sql noprint;
  2.   create table test as
  3.     select appl_no, sum(money) as tot_money from tmp1 group by appl_no;
  4. quit;
复制代码

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-19 10:20