一、结构模型与简约模型之争
传统实证方法大体上可以分两大类:structural form和reduced form,结构模型和简化模型。
简化型(reduced form)通过一系列的统计方法,试图直接用数据去识别这一因果关系。只要识别(identification)清晰,简化型就可以通过数据来推测我们想要知道的因果关系的数量特征(quantitative behaviour)。而简单明了的识别正是简化型的一大优势。但是,结构模型拥簇者认为:简化型并不提供反事实(counterfactual)的推断。简化型所估计出来的并不能成为政策建议的依据。因为简化模型“过度”依赖事实数据(factual data),而如果改变政策的同时改变了数据生成的方式,那么简化型所得到的与真实值就毫无关系了。不巧的是,社会科学所用到的数据往往与人的行为有关,而这些行为又会根据政策(以及其他外部因素)的改变而改变。一旦行为改变了,数据生成的方式也就改变了。那么在政策或其他外部因素变化之后,简化型所得到的结论是不是仍然适用,就需要打一个问号了。
结构模型(structural form)通过建立引起因果关系的数据生成具体方式(机制)的模型来解决简化型中的问题。由于在模型中明确地指明了一些重要的外部因素(如政策)是如何影响通过某些参数来影响参与人决策的,我们就可以通过估计某些参数来考虑这些外部因素改变对数据生成方式的影响。那么,通过改变这些外部因素并结合现有数据所估计出来的参数,结构模型可以提供一系列反事实推断,对政策的制定有重要的意义。
简约模型拥簇者认为:结构模型听上去美如画,但在实证方面却往往不是那么一回事。结构模型由于其参数多,识别的难度也大大加大。相比于简化型清晰的识别,结构模型往往需要大量质量奇佳的数据进行识别,而现实中的数据往往质量没那么好,所以结构模型要么只能识别一部分,要么只能做一些十分简单的模型(Chetty的例子,如果研究商品税收对总体福利的影响,如果我们允许消费者之间效用函数各不相同,那么结构模型在理论上是无法完全识别的;同时,如果消费者的选择是离散的,那么结构模型在识别上也会出现很大的困难),而这些简单的模型往往无法满足我们的需求。文献中现有结构模型往往依附于一些大型的随机试验项目(例如墨西哥的PROGRESA和印度一个NGO Seva Mandir的项目)以获得高质量数据。
如果想做一些政策研究,或者只是想让研究有一定的external validity,陷入到简化型做不了,结构型做不好的境界,事实上,这个问题可以归结到参数识别上。简化模型中参数较少,所以识别简单。为了得到反事实推断,因为参数少,所以似乎简化模型无法提供反事实推断。但结构模型本身一般很难识别,导致了研究的两难局面。为了获得反事实推断,可能不需要识别更多结构参数,而只需要识别简约参数,这本身是一个降维变换。
回归模型与结构模型的区别讲解预告!
1月27日上午
主讲人:江艇
课程安排:因果推断导论
1、如何理解因果“识别”
2、随机实验:因果推断的参照系
3、观测性数据研究的根本挑战
4、回归模型与结构模型的区别
5、潜在结果模型
6、分配机制与识别假设
7、线性结构模型与潜在结果模型的关系
以上内容开讲还有一周等待,根据了解,以下听讲报名平台还在开放.......
即将开班 | Python数据挖掘与Stata应用能力提升与实证前沿寒假工作坊
即将开班 | Python数据挖掘与Stata应用能力提升与实证前沿寒假工作坊
二、充分统计量思路
结构模型由于其参数多,识别的难度也大大加大;简化模型中参数较少,所以识别简单。为了获得反事实推断,可能不需要识别更多结构参数,而只需要识别简约参数,这本身是一个降维变换。Chetty(2009)建议遵循充分统计量方法思路。充分统计量方法的思路在很多传统结构模型中或多或少都有应用到。比如在面板回归中,我们常常将无法识别的常数项一起丢进各种fix effects里面,也就是虽然我们无法单独识别这些n维常数项C1,C2,C3,...,但是我们可以识别他的一个一维变换 C1+C2+C3+...。充分统计量将这种思路拔高到另一个层次,将一系列无法识别的真正有意义的参数(而不仅仅是我们不太关注的常数项)“合并”到一两个可以识别的统计量上,并且由于这些统计量已经考虑了数据生成方式对政策变化的反应,我们可以通过这些统计量的估计值进行反事实推断,做出许多颇有意义的政策建议。
充分统计量方法最先出现在公共经济学和福利经济学这些政策性较强的研究中,强调理论模型的复杂,识别的清晰和policy-invariance(对政策变化的普适性?)。现在这一方法已经慢慢扩展到贸易、劳动、产业组织、行为等等一系列应用经济学领域。根据“大牛挖坑,小牛灌水”的普遍规律,充分统计量方法还将在各大实证领域继续发光发热。
三、政策(断点)是否外生?
陆铭(2020)在宁波商学院主办云课堂谈到:高考分数线对个体考生是外生吗?或许你不知道最近的高考冒名顶替问题,如果存在这个问题,分数线断点就不是外生的。再比如地方政府划出开发区,这个区线对内外企业是否外生?如果高科技企业被放入开放区,低技术企业被请出开发区,这样的地理断点就不外生了。所以除掌握先进方法外,经济学研究者还需要有丰富的人文历史等知识。陆老师的讲话可在B站观赏。点击文末阅读原文。
研究方法|赶紧收藏! 陆铭: 实证研究“13”点完整系列(1-13)
四、模糊断点回归设计
(Fuzzy Regression Discontinuity,FRD),其特征是断点x=c处,个体得到处理的概率从a跳跃到b,其中0<a<b<1。
精读点击:[color=var(--weui-LINK)]断点回归设计(RDD)分类与Stata操作案例
就模糊断点而言,在断点线,处理组与控制组是模糊的。就sharp_RDD,我们可以始终看到:以分割线为界,处理组一边均值与非处理组一边均值的比较。但是就模糊断点回归而言,就不能如此简单地比较,因为在处理组一边,也有不是被处理的个体;在非处理组一边的个体们不大可能被处理,但也有被处理的个体。这里有概率的问题,混合的问题。实际存在一个不符合(不履行)形势(no complied situation ):一些个体被指派在处理组,但其中也是只有一些是符合的(被处理的);反过来,指派一些在非处理组,但其中一些实际是被处理的个体。如何解决不符合(不履行)问题?How do we solve non-complied problem?一个办法是使用工具变量法。