楼主: SU==
4867 1

[数据管理求助] 倾向得分匹配(PSM)参与匹配的样本太少、pscore分布不均匀怎么解决? [推广有奖]

  • 4关注
  • 0粉丝

已卖:2份资源

硕士生

36%

还不是VIP/贵宾

-

威望
0
论坛币
602 个
通用积分
5.1143
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
1145 点
帖子
56
精华
0
在线时间
211 小时
注册时间
2019-11-11
最后登录
2025-11-8

楼主
SU== 发表于 2023-4-3 11:43:55 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
请教大家,

我正在做倾向得分匹配(PSM),匹配之后发现(1) _pscore 分布很不均匀,几乎都分布在 1 附近;(2)_weight 中没有参与匹配的太多太多,一共 3546 个样本,损失了 2249 个
想问下大家,这个样本损失量是可以接受的吗?
我想找到问题变量,剔除部分样本再去做,不知道可不可以?
以及怎么迅速找到呢?

谢谢大家!


_pscore分布
  1. . codebook _weight

  2. ---------------------------------------------------------------------------------------------------------------
  3. _weight                                                                    psmatch2: weight of matched controls
  4. ---------------------------------------------------------------------------------------------------------------

  5.                   Type: Numeric (double)

  6.                  Range: [.25,73.75]                   Units: 1.000e-08
  7.          Unique values: 125                       Missing .: 2,249/3,546

  8.                   Mean: 2.66692
  9.              Std. dev.: 6.98286

  10.            Percentiles:     10%       25%       50%       75%       90%
  11.                             .25       .25        .5       1.5      6.25
复制代码


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:倾向得分匹配 score 倾向得分 core SCOR

沙发
lalala是我的 发表于 2023-4-20 10:09:58
关于第一个问题,_pscore 分布不均匀的原因可能是匹配变量本身的分布不均匀,导致某些变量的权重较高,进而对 _pscore 的分布产生影响。你可以检查一下匹配变量的分布情况,看是否存在较大的偏离。另外,PSM 本身并不能保证得到的匹配样本的分布具有很好的平衡性,因此可以尝试使用倾向得分子集匹配 (PSM with propensity score subclassification) 或者 基于重要性重采样的匹配 (matching with important sampling) 模型,进一步提升结果的平衡性。

关于第二个问题,如果 _weight 中没有参与匹配的样本很多,可能是由于选择的匹配变量不足或者不够精准导致匹配难度较大。如果想找到问题变量,可以尝试通过观察变量在匹配前后的差异来判断其对匹配效果的影响大小。可以使用群组 t 检验或者 Wilcoxon 等非参数检验方法来比较不同变量在匹配前后的分布差异,进而筛选取决于匹配效果的变量。

最后,关于如何迅速找到问题变量,尝试以下方法:

1. 观察匹配前后变量的分布差异。可以通过 Summary Statistics 等工具来查看各个变量在匹配前后的分布变化情况。
2. 调整匹配模型的参数。可以通过调整匹配模型的参数来提高匹配的精度。比如增加匹配变量、调整匹配变量的权重等。
3. 对变量进行分组。将变量在匹配前后的分布进行分组,然后比对组间的差异,来快速定位问题变量。
4. 使用树形结构模型等决策树模型来筛选重要的变量,进而进行变量选择。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-10 23:36