楼主: 时光永痕
1496 0

[数据挖掘新闻] 匹配MatchIt的精确匹配 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)八级

5%

威望
0
论坛币
26 个
通用积分
57.2238
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34180 点
帖子
2732
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

楼主
时光永痕 学生认证  发表于 2020-10-23 21:29:32 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
匹配MatchIt的精确匹配
正如我当时所指出的,“因果推理的铂金设计是将受试者随机分配到不同治疗组的实验。通过随机化,不受控制或混杂的因素(Z's)的影响应在抽样限制内是“相等的”或在X的各个处理或X值之间达到“平衡”。在这种“受控” Z的设置中,分析人员更有信心X和Y之间的相关性实际上表示因果关系。
但是,在DS世界中通常看到的现场数据收集方案又如何呢?在DS领域中,数据是可观察的,混杂因素可以自由漫游?该怎么办?答案是:考虑因果推断技术,试图从统计学上模拟随机实验。”
在该博客中,我介绍了美国社区调查的数据。数据集构造的详细信息可以在此处找到。  
我想用该数据解决的问题是,如果持有个人拥有终极硕士学位与个人拥有终极本科学士学位,那么任何收入差异会如何?由于我们无法进行将人口随机分配给硕士或学士学位“治疗”的实验,因此考虑使用CI等技术是很有意义的,例如进行匹配,以了解是否可以从中解开教育“治疗”的效果。不受控制的协变量/混杂因素,例如年龄,性别,婚姻状况和种族,在不同的教育群体之间可能有所不同。
我部署的技术是使用倾向模型的结果进行的最近邻匹配,该模型详细说明了“治疗”是否/如何与混杂因素共变。结果表明,如果包括所有有影响力的混杂因素(一个关键的假设),那么两个教育水平之间的收入确实存在着有意义的差异。此外,当应用匹配调整时,收入差异较小,但仍显着。考虑到硕士学位的案例年龄较大且更有可能结婚,因此这种减少是有道理的。这些指标与自己的收入呈正相关。
尽管我对结果非常满意,但对所选技术的计算强度却不太满意。针对超过0.5M个合适的记录中的250
我还发现了哈佛教授加里·金(Gary King)等人对倾向模型驱动的匹配的批评,他是因果推理的开拓者,也是流行的R CI软件包MatchIt的作者。  
结果,我决定进行此分析,以便对整个.5M +数据文件进行“完全匹配”。em是一种更简单且在计算上更有益的技术,它仅涉及类似于SQL的基本争用。事实证明,em可以很好地处理此数据,并在30秒内完成对整个文件的计算。代码和结果在下面详细说明。
分析中使用的技术是具有Microsoft Open R 3.4.4的JupyterLab。为了进行匹配,将部署MatchIt,tableone和data.table程序包。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Match ATCH ATC Hit Mat

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-30 06:38