楼主: @明明如月
4640 1

[其他] 粗化精确匹配CEM文献推荐, 程序步骤可复制 [推广有奖]

已卖:43518份资源

大师

46%

还不是VIP/贵宾

-

威望
0
论坛币
344302 个
通用积分
910.2603
学术水平
83 点
热心指数
97 点
信用等级
63 点
经验
88014 点
帖子
5933
精华
4
在线时间
613 小时
注册时间
2019-8-29
最后登录
2022-1-26

楼主
@明明如月 在职认证  发表于 2019-10-31 15:31:56 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
转自: [url=]计量经济圈[/url]
[url=]

今天,咱们引荐一篇使用CEM进行非参数估计的文献。


作者使用2013-2014年中国教育调查小组(CEPS)的数据。由中国人民大学国家调查研究中心进行,CEPS是一项正在进行的以学校为基础的全国代表性纵向调查。采用分层、多阶段整群抽样的方法,从中国省20个省的112所学校随机抽取约20000名学生(第七年级10279人,第九年级9208人)。ceps分别对7年级和9年级的学生进行了认知测试,以测量他们的认知发展。这项测试包括七年级20项,九年级22项,来自初中生认知能力测试,其本身来源于台湾教育团体调查(Yang et_al)的无课程分析能力测试。2003年)。对于7年级和9年级的学生来说,认知测试旨在评估他们的语言(例如,语言推理、短语类比)、视觉(例如,图形模式分析、折纸和几何应用)和数学(例如,数学单词问题、自定义计算规则、抽象模式分析和概率)能力。


测量学生整体认知能力的主要结果变量是使用三参数(3pl)IRT模型从认知测试项目中生成的(de Ayala 2013)。irt是心理测量学领域的一项重要创新。它被广泛应用于测验、问卷和类似工具的设计、分析和评分,这些工具可以测量潜在的理论结构,如能力、态度、技能。为了作者的目的,使用三参数IRT模型对学生的认知能力进行评分的主要优势在于,该评分考虑了不同测试项目可能具有不同程度的辨别力和难度,以及一些学生可能比其他学生更擅长伪猜正确答案的可能性。此外,irt分数是独立于测试的,这意味着即使作者对7年级和9年级的学生进行了不同的测试项目,作者仍然可以将这两个样本集合在一起进行分析。IRT得分为无标度,近似正态分布为零均值。更多IRT程序的技术细节见Wang和Li(2015)。


处理变量,被调查者是否独生子女。作者的分析还利用了学校年级(即7年级与9年级)、性别、种族(汉族与少数民族)、出生时的户籍(城市与农村)、移民史(即学生是否离开出生地)、母亲教育、父亲教育、母亲职业和父亲职业。作者还考虑了被调查者的地理位置,主要是他们居住的省和县。


作者使用粗化精确匹配CEM(Iacus et al.2011a,b),这实际上是一个精确匹配加上一个预处理步骤,临时减少维度以增加匹配的数量,作为作者的主要分析工具。与倾向评分或其他形式的近似匹配不同,CEM通过研究者的事前选择限定处理组和对照组之间的最大不平衡程度。这个决策可以是数据驱动的、理论驱动的,也可以是由实质性知识指导的。在用于匹配的9个变量中,有5个变量(包括学校年级、性别、种族、出生时的户口和移民)完全匹配,没有粗化,而母亲和父亲的教育和职业在包含匹配之前粗化。


作者利用CEM方法提供的灵活性,并在四个步骤中进行了作者的分析。在分析的第一步中,作者主要关注的是评估处理组的独生子女(att)对认知发展的平均处理效果。为此,作者把有兄弟姐妹的孩子作为一组,并将他们与独生子女配对。在分析的第二步,作者有兴趣测试独生子女对认知发展的潜在出生顺序差异。为了做到这一点,作者将有兄弟姐妹的孩子分成两组:有弟弟妹妹的第一胎孩子和有哥哥姐姐的非第一胎孩子,分别与独生子女配对。同样,在分析的第三步,作者有兴趣测试独生子女的性别差异对认知发展的影响。作者听从了Hoet al. (2007)的建议首先进行非参数匹配,然后使用匹配的样本进行进一步的参数回归分析。这种方法结合了非参数匹配的能力和回归的灵活性,提供了一种测试异质性处理效果的简单方法。在分析的最后一步,作者将第二和第三步整合到一组模型中,同时测试独生子女的出生顺序和性别差异对认知发展的影响。作者进行了类似的分析,重点是出生顺序和出生时的户口状况(即农村与城市)。


在所有这些分析中,作者或多或少遵循了相同的模型构建策略。在每个步骤中,作者都从只匹配表1中列出的9个变量的模型开始。然后在第二个模型中,作者进一步将省id作为一个额外的匹配变量(不进行粗化)。通过限制匹配案例来自同一个省份,可以控制未测量的省份特征,提高匹配质量。在第三次cem分析中,作者进一步推进了这一思想,并通过将省id替换为县id作为额外的匹配变量,将匹配的案例限制为同一个县(县内模型)。在匹配模型中使用更精细的地理单元以降低统计能力为代价来改善匹配样本的平衡。作者通常倾向于县内结果,而不是全国样本结果和省内结果,尽管比较不同的模型以确定潜在的趋势总是一个好主意。


独生子女与非独生子女两组样本的比较。

1.jpg 2.png

独生子女与非独生子女认知能力比较。
3.jpg

出生顺序差异:非独生子女中老大与独生子女比较


4.jpg

出生顺序差异:非独生子女中弟弟妹妹与独生子女比较


5.jpg

性别差异,做了一个交互项。

6.jpg


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


1.png (2.15 KB)

1.png

7.jpg (8.22 KB)

7.jpg

6.png (28.28 KB)

6.png

5.jpg (25.97 KB)

5.jpg

4.png (35.21 KB)

4.png

3.png (22.03 KB)

3.png

2.png (2.83 KB)

2.png

1.png (2.15 KB)

1.png

沙发
wuhan0130 发表于 2020-6-17 23:48:21
非常感谢,这个cem使用的人不多,我在文献当中进行匹配的变量有5个,但是有两个关键的变量就是这两个distance,加上之后效果就很不好,不知道后面怎么处理了,跟您请教一下。

ind_distance 和geo_distance是文献中提到的用来匹配的两个变量 但是我加上效果就很不好,这个怎么办?需要怎么处理一下?

这里好像不能上传照片

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-26 04:12