楼主: suly
7765 15

merge 的问题 [推广有奖]

  • 0关注
  • 0粉丝

博士生

19%

还不是VIP/贵宾

-

威望
0
论坛币
996 个
通用积分
0.0700
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
4210 点
帖子
157
精华
0
在线时间
209 小时
注册时间
2007-12-20
最后登录
2020-5-3

楼主
suly 发表于 2010-7-20 22:30:02 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
假设两个数据集样本不一样,部分相同,我想得到按数量少的那个数据集的样本,因为小样本已经删了某些不想要的,大样本没有。如何得到呢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Merge 数据集 大样本 小样本 Merge

回帖推荐

pobel 发表于9楼  查看完整内容

B数据集中的第三个也会和A中的第二个匹配。 如果A中x=1有m个,B中有n个, 且m

sunnytree 发表于5楼  查看完整内容

一个做法是这样的: 1、用sql命令将大样本(bigsample)的数据集多余的样本删除,得到一个新的数据集(newdata); proc sql noprint; create table newdata as select * from bigsample where exists (select * from smallsample where smallsample.stkcd=bigsample.stkcd) ; quit; 2、再用merge命令将小样本的数据集(smallsample)与新的数据集(newdata)合并

本帖被以下文库推荐

沙发
yixing1982 发表于 2010-7-20 22:35:16
把小样本做master,merge之后,保留master和merge的部分,你看这样可以吧?

藤椅
suly 发表于 2010-7-20 22:47:14
master什么意思啊。直接merge 好像也不是完全是大样本,比大样本的数还多。A数据集有13365个观测值。B数据集有 13804观测值,但是合并完了后有15445个 。这是怎么回事啊。A集有stkcd,year,earning cfo 等等年报数据,B集有stkcd,year,car. 我是merge by stkcd year。这个应该不难,但是我不会。sql可以吗,怎么用呢

板凳
nkwilling 发表于 2010-7-21 09:41:28
MERGE和SQL在一对一或多对一的情况下看不出区别,但是在多对多的情况下就会看出这种区别.根本原因如下:
1.SQL是按照JOIN的变量值进行匹配.比如A数据集中的变量X=1有两个,B数据集中的X=1有三个,如果用SQL,则A.X=B.X将产生2*3=6条记录.
2.MERGE是按照BY的变量位置进行匹配.对上面的A和B数据集, 首先是A数据集中的第一个X=1和B数据集中的第一个X=1匹配,然后是A数据集中的第二个X=1和B数据集中的第二个X=1匹配,而对于B数据集中的第三个X=1则单独输出.

你最好用不同的数据集测试一下两者之间的区别.
已有 1 人评分学术水平 热心指数 收起 理由
crackman + 1 + 1 对头

总评分: 学术水平 + 1  热心指数 + 1   查看全部评分

报纸
sunnytree 发表于 2010-7-21 10:08:37
一个做法是这样的:

1、用sql命令将大样本(bigsample)的数据集多余的样本删除,得到一个新的数据集(newdata);

proc sql noprint;
        create table newdata as
        select *
        from bigsample
        where  exists (select *  from smallsample  where smallsample.stkcd=bigsample.stkcd)
;
quit;

2、再用merge命令将小样本的数据集(smallsample)与新的数据集(newdata)合并
已有 1 人评分热心指数 收起 理由
crackman + 1 也可以

总评分: 热心指数 + 1   查看全部评分

地板
suly 发表于 2010-7-21 15:34:20
5# sunnytree
谢谢你。我按你的方法做了。但是newdata并不是和small sample 的样本是一样的。car是variable。car1是数据集。
proc sql noprint;
        create table port as
        select stkcd, year, car
         from car1
        where  exists (select stkcd,year from repr18  where repr18.stkcd=car1.stkcd | repr18.year=car1.year)
;
quit;

7
suly 发表于 2010-7-21 15:36:39
完了以后新数据集里还有一些big sample有而small sample 没有的股票,就是我想踢除的数据

8
pobel 在职认证  发表于 2010-7-21 16:01:01
suly 发表于 2010-7-21 15:36
完了以后新数据集里还有一些big sample有而small sample 没有的股票,就是我想踢除的数据
用left join 吧
和谐拯救危机

9
pobel 在职认证  发表于 2010-7-21 16:07:32
nkwilling 发表于 2010-7-21 09:41
MERGE和SQL在一对一或多对一的情况下看不出区别,但是在多对多的情况下就会看出这种区别.根本原因如下:
1.SQL是按照JOIN的变量值进行匹配.比如A数据集中的变量X=1有两个,B数据集中的X=1有三个,如果用SQL,则A.X=B.X将产生2*3=6条记录.
2.MERGE是按照BY的变量位置进行匹配.对上面的A和B数据集, 首先是A数据集中的第一个X=1和B数据集中的第一个X=1匹配,然后是A数据集中的第二个X=1和B数据集中的第二个X=1匹配,而对于B数据集中的第三个X=1则单独输出.

你最好用不同的数据集测试一下两者之间的区别.
B数据集中的第三个也会和A中的第二个匹配。

如果A中x=1有m个,B中有n个, 且m<n, 则前m-1行A和B分别一一匹配。 B的第m行到第n行都会和A的第m行匹配。

data A;
  input x y;
  datalines;
1 2
1 3
;
data B;
   input x z;
   datalines;
1 4
1 5
1 6
1 7
;
data C;
    merge a b;
by x;
run;
和谐拯救危机

10
BraveMadMan 发表于 2010-7-21 20:55:59
pobel 发表于 2010-7-21 16:01
suly 发表于 2010-7-21 15:36
完了以后新数据集里还有一些big sample有而small sample 没有的股票,就是我想踢除的数据
用left join 吧
同感
Don't get lost in technical details. What is the big picture?

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-29 00:20