在倾向得分匹配(PSM)中,尤其是使用近邻匹配方法时,理解实验组和对照组样本的配对方式对于评估模型的有效性和结果的可靠性至关重要。以您提到的情况为例:
1. **近邻1:1匹配**:在这种情况下,每个实验组样本会被尽可能地与一个最相似(基于倾向得分)的控制组样本进行配对。因此,如果原始数据中实验组有N个样本,那么理论上在1:1的情况下也会匹配出N个控制组样本,使得最终用于分析的数据集包含2N个观测值。
- **示例解释**:假设您的初始数据中有5000个实验组样本和6000个对照组样本。进行近邻1:1匹配后,理论上会有最多5000个实验组样本与控制组样本成功配对(如果每个实验组样本都能找到合适的匹配对象),最终的分析数据集将包括这5000个实验组样本和它们各自对应的5000个对照组样本,共计10000个观测值。
2. **近邻1:2匹配**:这种情况下,对于每一个实验组样本,会尝试找到两个最相似(基于倾向得分)的控制组样本进行配对。如果原始数据中实验组有N个样本,理论上,在1:2的情况下将会有N个实验组样本和2N个控制组样本被用于分析。
3. **核匹配**:核匹配方法与上述不同,它不是简单的一对一或一对多的匹配方式。在核匹配下,每个实验组样本会基于其倾向得分与所有对照组样本进行对比,并根据一定的权重(通常由某种“核”函数决定)来评估和分析。
- **示例解释**:如果使用核匹配,则最终用于分析的数据集可能包括所有的原始数据点,但不同样本的贡献度或权重会有所不同。这取决于它们与实验组样本在倾向得分上的接近程度及所选择的具体核函数类型。
关于您提到的结果图和回归观测数11803,这个数字应该是经过匹配后最终用于分析的数据集中的总观测值数量。如果是在进行近邻1:1匹配的情况下得到的,理论上意味着原始数据中实验组与对照组成功配对了5902个样本(即11803除以2),但具体的匹配细节需要根据匹配过程的具体参数和实施步骤来判断。
希望这能帮助您更好地理解PSM-DID方法中的样本匹配原理及其对分析结果的影响。
此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用