楼主: ZZ1119
7605 7

[统计软件与数据分析] Stata中psmatch2自带的pstest到底在检验什么? [推广有奖]

  • 0关注
  • 8粉丝

银座原木顶

讲师

19%

还不是VIP/贵宾

-

威望
0
论坛币
394 个
通用积分
16.4513
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
5475 点
帖子
309
精华
0
在线时间
209 小时
注册时间
2018-7-1
最后登录
2023-4-10

15论坛币
Stata中psmatch2自带的pstest到底在检验什么?检验报告了匹配前和匹配后对照组与实验组在每个变量上的均值差异,但问题是,匹配仅仅满足了局部的同质性(比如说对于倾向得分相近的样本),而对于整个对照组和整个实验组,并不一定满足均值相近的特征。那么这个检验究竟检验的是什么?

关键词:psmatch2 Match Stata test ATCH
沙发
huzhe_ 学生认证  发表于 2019-10-23 19:18:33 |只看作者 |坛友微信交流群
检验平行假设: 匹配前后匹配变量的差异对比
平行假设(Balancing Assumption) 即在接受 Treat 之前,两组之间没有差异
比如考清华对于工资的增加作用,那么我们需要控制我们的样本尽量在上与没上清华之前基本无差异。这样才能解释之后工资是由于清华这个变量引起的。psmatch2匹配由于  共同支撑假设(Common Support)因素比较多,就将多个因素维度变为了一维,类似于将语数外三门成绩变为了总分。我们拿总分比较,总分相近,就假设他们没上清华前差不多。
而在pstest里面
unmatch时如果显著,match之后不显著,那么认为这就是一个不错的分析。match之后,使用共同支撑假设(Common Support)因素无法预判这个人到底上没上清华。也就是差别不大了。
整个对照组与实验组相近自然是好的,但是一般难以得到这样的数据

使用道具

藤椅
ZZ1119 发表于 2019-10-25 16:35:10 |只看作者 |坛友微信交流群
huzhe_ 发表于 2019-10-23 19:18
检验平行假设: 匹配前后匹配变量的差异对比
平行假设(Balancing Assumption) 即在接受 Treat 之前,两组之 ...
嗯嗯是的,就是这个原理,但有个问题我还是不太清楚:PSM的匹配会分出很多的组,同组的个体性质相近;而检验中每一个协变量只对应一个均值,这样就看不出是哪一组,难道是整个对照组和整个实验组吗?

使用道具

板凳
月萧 发表于 2019-10-28 10:28:02 |只看作者 |坛友微信交流群
ZZ1119 发表于 2019-10-25 16:35
嗯嗯是的,就是这个原理,但有个问题我还是不太清楚:PSM的匹配会分出很多的组,同组的个体性质相近;而检 ...
PSM是匹配对照组和实验组,让两个组的差异变小,而不是消除组内差距。original的每个个体都会有一个倾向性评分(根据你选择的因素),每一个实验组的个体会根据自己的评分去对照组找一个和自己评分最近的(根据你设置的caliper),如果找不到就被放弃,这样匹配后的两个组关于该因素的差异就会很小,两个样本相似,所以组间差异被弱化(不考虑组内)。 比如上面的例子中,在original的两组的总分可能有显著差异,但在matched的两组里不显著,则匹配成功。
另外,你说的对,匹配仅仅满足了局部的同质性,在整个对照组和实验组是不满足的。事实上,总体是不会改变的,除非你改变数值,否则两个总体的均值方差所有性质都不会变。所以我们才需单独拎出两个匹配样本,让它们性质相当。之所以对比匹配前和匹配后就是告诉你,你看,匹配前有显著差异,但匹配后的数据没有,所以匹配成功。


使用道具

报纸
ZZ1119 发表于 2019-10-28 12:18:50 |只看作者 |坛友微信交流群
月萧 发表于 2019-10-28 10:28
PSM是匹配对照组和实验组,让两个组的差异变小,而不是消除组内差距。original的每个个体都会有一个倾向性 ...
也就是说,匹配前的结果是关于整个对照组和整个实验组的性质,而匹配后也是关于整个对照组和整个实验组的性质,只不过剔除了没有匹配上的样本对吗?但事实上没匹配上的样本可能很少,大部分样本都能被匹配,这样一来匹配前后的结果可能差异不大。而且整体的同质性本来就是不满足的,因此如果匹配之后还是在比较整个对照组和整个实验组的性质(尽管是剔除了不能匹配的样本),那么即便是性质差异较大也不能说明匹配效果不好,因为匹配仅仅对局部有效。

使用道具

地板
月萧 发表于 2019-10-30 17:43:34 |只看作者 |坛友微信交流群
ZZ1119 发表于 2019-10-28 12:18
也就是说,匹配前的结果是关于整个对照组和整个实验组的性质,而匹配后也是关于整个对照组和整个实验组的 ...
1、“也就是说,匹配前的结果是关于整个对照组和整个实验组的性质,而匹配后也是关于整个对照组和整个实验组的性质,只不过剔除了没有匹配上的样本对吗?”   

前半句是对的,匹配前是关于全部总体original(unmatched)。但匹配后我们看的就是匹配成功matched的样本,不看没有匹配上的,我觉得没有“匹配后的整个对照组、整个实验组”这个说法。

2、“但事实上没匹配上的样本可能很少,大部分样本都能被匹配,这样一来匹配前后的结果可能差异不大。”

如果你在匹配时的参数设置合理,而大部分样本被匹配,那么恭喜你,你的original可能组间差异就不大。
如果original的组间差异大,但大部分样本被匹配,那么很可能是你的设置参数有问题,设置入选条件太宽松。


3、“如果匹配之后还是在比较整个对照组和整个实验组的性质(尽管是剔除了不能匹配的样本),那么即便是性质差异较大也不能说明匹配效果不好,因为匹配仅仅对局部有效。”

首先,匹配后不是比较整个对照组和实验组,你加了括号说明你理解,只是我们不用这样的说法,你可以叫匹配后样本或matched sample ,相对应的匹配前的叫original 或unmatched。

其次,还是我第一次留言时说的匹配只对matched sample 负责,它无法改变原总体的任何,而没有匹配成功的数据将不会进入到后面的分析,因为根据PSM,我们认为这些数据应该被剔除。

另外,参看第四条,我不太明白最后这个“即便是性质差异较大也不能说明匹配效果不好”

4、关于你说的“差异”问题

我在前面讨论中提到的“差异”指的是两个总体的组间差异是否显著,或者匹配后两样本组间差异是否显著,这里的差异是统计学意义上的显著差异。

在你的回复中,“匹配前后的结果可能差异不大”、 “那么即便是性质差异较大也不能说明匹配效果不好”,你这里的两个差异是什么意思呢

使用道具

7
ZZ1119 发表于 2019-10-31 11:51:06 |只看作者 |坛友微信交流群
月萧 发表于 2019-10-30 17:43
1、“也就是说,匹配前的结果是关于整个对照组和整个实验组的性质,而匹配后也是关于整个对照组和整个实验 ...
是这样,可能我没理解清楚。举个例子,假如实验组内部分成A1、B1、C1三部分,对照组内部分成A2、B2、C2三部分,其中A1和A2能够匹配,B1和B2能够匹配,但C1和C2无法和对方匹配。那么匹配前的unmatched样本计算的是不是(A1+B1+C1)的均值与(A2+B2+C2)的均值之差?而匹配之后的检验计算的是什么呢?是(A1+B1)的均值与(A2+B2)的均值之差吗?如果是这样,那么就有问题,因为匹配只能使A1和A2性质相近,B1和B2性质相近,却无法保证(A1+B1)和(A2+B2)性质相近。

使用道具

8
19950919liu 发表于 2020-6-22 15:19:49 |只看作者 |坛友微信交流群
ZZ1119 发表于 2019-10-31 11:51
是这样,可能我没理解清楚。举个例子,假如实验组内部分成A1、B1、C1三部分,对照组内部分成A2、B2、C2三 ...
我和楼主是一样的想法,感觉删除掉没有匹配成功的样本(很少),用匹配成功的样本进行总体分析跟没删除差不多,这个问题我也一直没搞明白,请问楼主弄清楚了吗,,能帮忙解答一下吗,谢谢

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-7 05:00