楼主: 黃河泉
4619 22

[学习心得] PSM 之 pre-sorting data? [推广有奖]

11
黃河泉 在职认证  发表于 2019-10-5 10:17:44
蓝色 发表于 2019-10-5 09:10
自己收集的数据一般都是按照一定规则排序的。如微观数据,一般按照省市县乡村户个体排序的,不是随机打乱 ...
让我举个例来说明,假涉有一治疗观察值 T1 之倾向得分为 0.8,而我们找到对应之控制组有三个观察值 C1, C2, C3 (假设其倾向得分也都为 0.8),类似
  1. C1  0.8  0.50
  2. C2  0.8  0.51
  3. C3  0.8  0.49
复制代码
最后一列假设是某一变量 x 之值。
若一开始,从母体随机抽样之顺序就是 C1, C2, C3,但如同您所谈的---可能经过个人排序---变成顺序为 C2, C1, C3 (若不 sorting,就选 C2)。现在也如同您之建议,要做 random sorting,变成 (假设为) 顺序 C3, C2, C1 (此时选 C3)。这三个 C1, C2, C3 都是母体随机抽取出来刚好可以与治疗处之 T1 配对的,我就无法理解,为何选择 C3 (或其他随机 sorting 情况,可能是 C1) 就比 C2 好? 还是"不小心" 选到 C2 还要重 sorting?

12
黃河泉 在职认证  发表于 2019-10-5 10:18:55
蓝色 发表于 2019-10-5 09:21
英文的是:Propensity Score Analysis: Statistical Methods and Applications (Advanced Quantitative T ...
感谢!

13
蓝色 发表于 2019-10-5 10:49:38
黃河泉 发表于 2019-10-5 10:17
让我举个例来说明,假涉有一治疗观察值 T1 之倾向得分为 0.8,而我们找到对应之控制组有三个观察值 C1, C ...
我认为随机性是指 从控制组抽取的匹配上的是随机的,。而你不清楚原始数据生成得分的时候,其他变量是不是按照某个变量排序的。你的例子只是一个从3个匹配一个,随机排序可能会有C3对应。但随机排序后,这种可能性就很低

14
黃河泉 在职认证  发表于 2019-10-5 11:05:47
蓝色 发表于 2019-10-5 10:49
我认为随机性是指 从控制组抽取的匹配上的是随机的,。而你不清楚原始数据生成得分的时候,其他变量是不是 ...
就如同您说的
  1. 从控制组抽取的匹配上的是随机的
复制代码
丞续我的上面的例子,还是老话一句,三个控制组是一样好的 (原先的资料就是这多种排列组合的一种实现情况,从这三个 C1, C2, C3 再做一次的随机抽取的 --- 不管抽到谁 --- 不可能比较好)。

15
蓝色 发表于 2019-10-5 11:25:43
黃河泉 发表于 2019-10-5 11:05
就如同您说的丞续我的上面的例子,还是老话一句,三个控制组是一样好的 (原先的资料就是这多种排列组合的 ...
黄老师:
我觉得有必要问问 在匹配方面的权威,看看他们是怎么解释的。

16
黃河泉 在职认证  发表于 2019-10-6 08:03:44
蓝色 发表于 2019-10-5 11:25
黄老师:
我觉得有必要问问 在匹配方面的权威,看看他们是怎么解释的。
这也是一个好方法/方向,我找个时间试试。

17
黃河泉 在职认证  发表于 2019-10-9 07:44:55
我后来问了一下其他人之意见,Clyde 之回应在此:https://www.statalist.org/forums/forum/general-stata-discussion/general/1519335-random-sorting-before-1-1-matching;此外,我也问了 Professor Shenyang Guo (by email,就是上面蓝色版主贴出来的英文书作者),但我并没有 Guo 老师的同意所以无法公开对话,大致而言 (我尽量公平地说),他没有反对我的话,但也没特别赞同我的话 (呵呵!),我再写一封 email 去征求公开对话!

18
黃河泉 在职认证  发表于 2019-10-9 10:30:14
大家也请看看我的最后感想:https://www.zhihu.com/people/river-19-60/activities

19
震震果实 发表于 2019-10-9 12:17:06
黄老师,在这个问题上我支持你的看法,我不认为随机排序后结果优于不随机排序,原因也很简单:随机排序之后,结果可能是A,也可能是B,更可能是C,因为匹配的个体可能不同,通俗点来讲就是没有一个确定的值。不排序是排序的一种特殊形式,具有唯一性,在实际工作用比较有用。其实如果适用反复随机排序,结果取均值的方式来处理的话,我觉得结果更具有说服力。所以反复随机排序均值版>原始版>单随机排序。
已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
黃河泉 + 5 + 5 + 5 + 5 精彩帖子

总评分: 论坛币 + 5  学术水平 + 5  热心指数 + 5  信用等级 + 5   查看全部评分

20
黃河泉 在职认证  发表于 2019-10-9 17:26:36
震震果实 发表于 2019-10-9 12:17
黄老师,在这个问题上我支持你的看法,我不认为随机排序后结果优于不随机排序,原因也很简单:随机排序之后 ...
感谢你的支持,你写得很好。但我也愿意再听听不同意见与看法!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-1 15:00