楼主: 黃河泉
4631 22

[学习心得] PSM 之 pre-sorting data? [推广有奖]

大师

53%

还不是VIP/贵宾

-

威望
3
论坛币
34049 个
通用积分
56695.4876
学术水平
3551 点
热心指数
3712 点
信用等级
2932 点
经验
308898 点
帖子
14545
精华
12
在线时间
7426 小时
注册时间
2016-7-9
最后登录
2025-12-9

楼主
黃河泉 在职认证  发表于 2019-10-1 10:27:30 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我常常看到许多人在做 PSM 时,都会重新 (随机) sort 资料,例如 (no offense,还有很多其他已发表之期刊文章之 code 也都是如此):https://bbs.pinggu.org/thread-7349797-1-1.html,其指令类似:
  1. set seed 10101
  2. gen ranorder=runiform()
  3. sort ranorder
复制代码
其实做这一步并没有比不 sort 资料来的好 (最多一样好)。当然,若有人可以指出我的错误,我也非常乐意聆听。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Sorting Data Tin PSM ING

回帖推荐

震震果实 发表于20楼  查看完整内容

黄老师,在这个问题上我支持你的看法,我不认为随机排序后结果优于不随机排序,原因也很简单:随机排序之后,结果可能是A,也可能是B,更可能是C,因为匹配的个体可能不同,通俗点来讲就是没有一个确定的值。不排序是排序的一种特殊形式,具有唯一性,在实际工作用比较有用。其实如果适用反复随机排序,结果取均值的方式来处理的话,我觉得结果更具有说服力。所以反复随机排序均值版>原始版>单随机排序。
已有 1 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
葫芦娃大王 + 10 + 10 + 1 + 1 + 1 精彩帖子

总评分: 经验 + 10  论坛币 + 10  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

沙发
飞鸿惊鸿 发表于 2019-10-1 15:06:01 来自手机
做最邻近匹配时,必要

藤椅
黃河泉 在职认证  发表于 2019-10-1 15:45:45
飞鸿惊鸿 发表于 2019-10-1 15:06
做最邻近匹配时,必要
虽然我完全看不出理由 (其实我这个帖子就是特别针对是你讲的"最邻近匹配"而写的),很愿意听听你的意见 (理由为何)

板凳
飞鸿惊鸿 发表于 2019-10-2 21:08:55
黃河泉 发表于 2019-10-1 15:45
虽然我完全看不出理由 (其实我这个帖子就是特别针对是你讲的"最邻近匹配"而写的),很愿意听听你的意见 (理 ...
在计算倾向得分的时候,一种常见的情况是,控制组中的多个观测的倾向得分完全相同。那么观测的初始排序就会影响最终的结果。对排序进行随机化的目的在于从多个倾向得分相同的候选者中“随机地”进行选择。

报纸
黃河泉 在职认证  发表于 2019-10-3 07:37:57
飞鸿惊鸿 发表于 2019-10-2 21:08
在计算倾向得分的时候,一种常见的情况是,控制组中的多个观测的倾向得分完全相同。那么观测的初始排序就 ...
你讲的理由跟我猜的完全一模一样 (这恐怕是唯一理由,但绝不是要多一步去执行随机 sorting 的理由)。的确, 可能在匹配过程中有可能遇到倾向得分完全相同 (虽然我认为机会不高,但这不是重点),所以如同你所说的,观测的初始排序就会影响最终的结果,我完全赞成。但问题在于原始资料的排序本来就是一随机之实现状况,你再"随机地”排一次,结果就会比原先的排序结果好 (或更有代表性) 吗?答案很明显地是 (要讲三次):
  1. 不会!不会!不会!
复制代码

地板
蓝色 发表于 2019-10-5 07:34:55
psmatch22.png psmatch21.png

7
黃河泉 在职认证  发表于 2019-10-5 08:10:48
蓝色 发表于 2019-10-5 07:34
感谢蓝色版主的资料,我知道很多人这样做 (我也可以找到"国际顶尖期刊"文章中,做 PSM 没有 sorting 的 code 给您看),我的问题还是 (上面还是没有回答),重新 sorting (来保证上面的随机性) 的资料真的比 (也是随机实现的) 原始资料来得好吗我相信这是不可能的事 (若有的话,请告诉我理由)
  1. 想像一下,两个都是随机产生的顺序/资料,怎么可能有一个比另一个好呢?
复制代码


8
蓝色 发表于 2019-10-5 09:10:30 来自手机
黃河泉 发表于 2019-10-5 08:10
感谢蓝色版主的资料,我知道很多人这样做 (我也可以找到"国际顶尖期刊"文章中,做 PSM 没有 sorting 的 c ...
自己收集的数据一般都是按照一定规则排序的。如微观数据,一般按照省市县乡村户个体排序的,不是随机打乱的。
而且在正式进行匹配以前要清理数据,也会对数据进行一定的排序
不会一上来就直接psmatch


9
黃河泉 在职认证  发表于 2019-10-5 09:14:08
蓝色 发表于 2019-10-5 07:34
请问这中文资料是从哪一本书来的?谢谢!

10
蓝色 发表于 2019-10-5 09:21:13
黃河泉 发表于 2019-10-5 09:14
请问这中文资料是从哪一本书来的?谢谢!
英文的是:Propensity Score Analysis: Statistical Methods and Applications (Advanced Quantitative Techniques in the Social Sciences)   SAGE Publications, Inc;  Second Edition:  Shenyang Guo  (Author), Mark W. Fraser  (Author)

中文的是:基本有用的计量经济学  赵西亮 著

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-5 05:24