楼主: @明明如月
1193 2

[其他] 倾向值匹配分析:起源和入门书单 [推广有奖]

大师

46%

还不是VIP/贵宾

-

威望
0
论坛币
332970 个
通用积分
782.1671
学术水平
83 点
热心指数
97 点
信用等级
63 点
经验
88013 点
帖子
5943
精华
4
在线时间
613 小时
注册时间
2019-8-29
最后登录
2022-1-26

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
转载:R语言数据挖掘与分析


见微知著,月晕而风。科学研究最重要的意义和最令人振奋的收获,莫过于找出事物发展和变化的真正原因。有很多现象和关联似乎显而易见,然而证明这些“简单”的现象和关联的过程,可能极其消耗人力和物力。在20世纪30年代之前,匹配法(也称控制法)在因果研究中占据了压倒性的地位,科学家认为只有将实验组和对照组的所有情况都尽可能接近,才能两组间的差异是否归于处理因素。但是,在要让实验组和对照组之前的特征(混杂)尽可能匹配,不仅难以操作,而且会消耗大量资源,尤其在很多情况下,很多因素是试验者难以去控制的。


1随机化概念的起源


在伊利诺伊大学的莫柔地块(University of Illinois , Morrow Plots),Fisher通过“分割地块实验”(( Split-Plot Experiment ),成功证明了一个在今天看来可能极其简单,但却耗费了几代科学家上百年努力的结论:土壤的质量是农业生产率最关键的决定因素(Soil quality is a vital component of agricultural productivity)。并开拓了如今广为人知的方差分析(ANOVA),将随机实验法纳入了因果分析的殿堂,成为因果分析的金标准。


2为什么要做倾向值分析

在卫生领域,随机临床试验(RCT)是应用随机实验法最典型的例子。为了证明某种处理(或因素)的作用,将研究对象随机分组并进行前瞻性的研究,可以最大程度上确保已知和未知的混杂因素对各组的影响均衡,阐明处理因素的真实效应。但RCT对研究对象严格的纳入和排除标准,无疑会影响研究结果的外推,同时费用和组织困难问题很多时候都是让人难以承受的。此外,很多研究问题无法做到随机,甚至有些情况下的随机是违反伦理道德的。


而非随机对照研究(如观察性研究和非随机干预研究)能够较好地耐受RCT中存在的问题,在实际应用中更为广泛。如何利用非随机化研究的资料探究因果,一直是流行病学和统计学研究中非常关注的问题。传统的控制混杂的方法如分层、匹配等控制的混杂因素有限,多因素分析的方法在概念上“控制了其他因素,探究某一因素的影响”,依然无法控制混杂因素所导致的偏性。在这种情况下,倾向值分析(Propensity score analysis)的理论和实践不断丰富,并在流行病学、经济学、社会科学等领域得到广泛应用。


举一个简单的例子。我们常认为重点学校的对于学生学习能力的提升是优于一般学校的。如果把学校类型视为处理因素,而结局指标为入学后成绩的改变量。那么不同学校间学生成绩改变量的差异,究竟是因为学校不同(处理因素,简单理解为师资、设施等条件的综合),还是因为考入重点学校的学生,本身就比一般学校的学生更聪明,更勤奋,家长的受教育水平更高,对教育的投资更大(混杂因素)?如果控制这些混杂因素以后,学校对成绩的影响,是否就会发生很大变化?学生进入何种学校学习(接受不同处理)的概率是不同的,受到了很多因素的影响,而这些因素同时可能也会影响结局,导致分析处理效应时的偏性。


倾向值就是研究的个体在一定可观测到的协变量(混杂)存在的情况下,接受某种干预的可能性。而倾向评分析,就是利用倾向值从对照组中为处理组中的每个个体寻找一个或多个背景特征相同或相似的个体作为对照,使两组的混杂因素的分布也趋于均衡,实现类似于随机化设计中的随机分配干预的目的。


3倾向值分析的步骤
1.jpg

经典的倾向值分析主要包括以下3步(上图来自推荐书目1,P85)


1. 寻找最佳的协变量,构建估计倾向值的模型。


模型的因变量为是否接受处理,自变量通常是同时影响处理因素和结局的变量(混杂),或是在干预组和对照组之间分布不均衡的变量。倾向值的模型以logistic回归模型最为常见,构建理想的倾向值模型和以是否接受处理为因变量,找到最恰当的自变量组合的logistic回归其实在原理上几乎是完全一致的。模型系数的假设检验、拟合度、逐步法筛选变量等,此外,一种较新的自动选择的算法一般加速建模(GBM)法也可用于选择变量和构建模型。


通过构建的模型,可以计算出每个研究对象的倾向值评分,它代表了研究对象接受处理的可能性。因此,具有相同倾向值的研究对象,在模型中的协变量是均衡可比的(而并非取值上完全一致)。


2. 匹配


根据倾向值的结果,从对照组中选择1:M个倾向值接近的个体与处理组匹配。如果处理组和对照组在协变量的分布上差别较大,则倾向值的分布也会差别较大,所以有了共同支持域(common support)的概念(下图,推荐书目1,P97)。共同支持域可以理解为处理组和对照组倾向值得分相同的范围,在共同支持域内的进行匹配,可能两组间协变量的分布更均衡(涉及到算法的选择和设置等问题)。匹配的算法有有Nearest Neighbor Matching(最邻近匹配)、Full matching(完全匹配)、精确匹配(Exact Match)、Optimal matching(最优匹配)等。其中Nearest Neighbor Matching 和Optimal matching较为常用。不同算法各有优劣,实际应用中一般选择可以使匹配后的处理组和对照组协变量均衡,且研究对象丢失不多的算法。


2.jpg


3. 匹配后分析


包括分层分析和多元分析等,不同研究采用的方法差别较大,可参照和自己方向类似的文献。


推荐书籍与文献


倾向值分析方法相对较新,近年来很多方法也发展迅速,本文只对起源和主要步骤进行介绍。在模型和算法选择,匹配后处理等方面有诸多细节,有需要的可以参照下列书目。


1.《倾向值分析:统计方法与应用》


对倾向值分析的起源、原理、应用和示例做了详细的介绍,并提供了数据和软件代码(Stata)。该书为译文,英文著作已在2014年推出第版《Propensity Score Analysis: Statistical Methods and Applications 2nd Edition》,对新的方法进行了更新,内容也更丰富,应该是目前关于倾向值分析最详细的教材。第二版的数据和代码见:http://ssw.unc.edu/psa/home


2. Randolph J J, Falbe K, Manuel A K, et al. A Step-by-StepGuide to Propensity Score Matching in R.[J]. Practical Assessment Research & Evaluation, 2014, 19.


R软件MatchIt包的简易教程,对结果的讲解较详细,可实现常用倾向值分析的功能。


3. MatchIt: Nonparametric Preprocessing for Parametric Causal Inference


R软件MatchIt包教程的详细版,对参数设置和原理进行了解释,并提供操作的语法示例。


4. 黄福强,杜春霖,孙梦辉,等. 倾向评分配比在SPSS软件上的实现[J]. 南方医科大学学报,2015,(11):1597-1601.


如习惯使用SPSS,可参考上述文献进行操作,常用倾向值分析的内容都可以实现。曾使用SPSS20.0 按照相关插件,但未成功。SPSS 22.0中自带了倾向值评分的操作窗口,但对参数的设置不够个性化。










二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


沙发
kilinebush 在职认证  发表于 2019-12-5 03:17:33 来自手机 |只看作者 |坛友微信交流群
谢谢分享

使用道具

藤椅
湘江之水 发表于 2020-8-20 16:14:04 |只看作者 |坛友微信交流群

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-27 07:37