楼主: 大多数88
955 38

[量化金融] 理解小额信贷扩张的影响:贝叶斯模型 [推广有奖]

11
何人来此 在职认证  发表于 2022-6-4 12:46:58
这些可以通过将这些站点级变量的回归系数降到零的强先验在贝叶斯框架内实现。表示这些协变量X,假设我们有M个这样的协变量,可以解释或预测治疗效果的变化。然后,下面的Bayesian层次结构模型将提供这种条件,或条件加正则化,如情况所示:yik~ N(uk+τkTik,σyk) i、 kukτk!~ Nu+Xβuτ+Xβτ!,五、式中V=“σuστuστuστuστ”# k、 βu~ N(0,σβu)βτ~ N(0,σβτ)(2.5)从概念上讲,所有这些模型都通过指定不同部位的异质处理效应,同时考虑到共同组分τ的存在,来解决研究聚集中的基本张力。由于控制其影响的参数στ本身是根据数据估计的,因此层次结构对于共同成分在多大程度上决定每个部位的治疗效果是不可知的。通过考虑任何στ∈ [0, ∞),该结构嵌套了两种情况:一种是“完全池”情况,其中站点之间没有异质性(στ=0),另一种是“无池”情况,其中站点没有公共组件(στ→ ∞).通过允许数据确定στ的最可能值,层次模型实现了“部分池”(Gelman et al 2004)。分层框架所解决的核心挑战是将采样变异与各站点治疗效果的真正异质性分离。这只能通过对问题施加某种结构来实现。参数可能性允许我们利用现场特定治疗效果的相对位置,结合因结果差异性导致的差异精度信息,推断出真正的异质性。

12
大多数88 在职认证  发表于 2022-6-4 12:47:01
这种功能形式允许我们在这个灵活的结构中实施部分池,而不是先验地确定抽样变量的相对大小和真正的影响异质性。如果没有这种结构或类似结构,分析人员必须选择一种无池模型,将研究中的所有变异归因于单一治疗效果的异质性,或者选择一种完全池模型,将其归因于纯粹的取样变异。分析多研究数据的流行“无功能形式”方法依赖于这些StrongErasumptions。计算K个估计治疗效果的精确加权平均值是一种完全汇集技术,就像汇集数据和通过普通租赁方进行回归一样。如果严格的全池假设是错误的,这些方法将低估站点之间的异构性。通过普通最小二乘法运行K个不同的回归是一个无池模型,如果严格的无池假设是错误的,那么集合{τK}Kk=1中的可变性将高估整个场地的异质性。出现这种高估的原因有两个,一个是k分离回归无法通过部分池跨设置进行推断,另一个是因为该程序隐含地将所有变化归因于真正的潜在异质性(有关此类分析的示例,请参阅Pritchett和Sandefur 2015)。

13
大多数88 在职认证  发表于 2022-6-4 12:47:04
因此,虽然参数似然性使模型看起来比随机试验的典型计量经济学分析更结构化,但事实上,这种设置允许我们免除这些更具限制性的结构和假设。这些模型确实要求处理效果是“可交换的”,以实现良好效果,这意味着它们的联合分布必须对K指数的排列保持不变。例如,这意味着我们不知道治疗效果的排序-虽然我们知道它们可能不同,并且我们可以想到为什么一个站点的效果可能比另一个站点的效果大或小,但在看到数据之前,我们实际上不知道该站点将如何排序。如果我们知道协变量应该与治疗效果相关,我们可以使用方程2.5中的模型,这将需要条件可变性。总的来说,这一要求意味着我们只能评估事实上可交换的一组站点的外部有效性和可推广性。我们希望预测或推断治疗效果的任何未来地点必须可以与我们已经研究过的地点进行交换。仅使用RCT数据意味着我们可以归纳出一组研究地点,这些地点可能是我们所研究干预的RCT的位置,但我们无法将我们的结果转移到这组之外。

14
mingdashike22 在职认证  发表于 2022-6-4 12:47:07
将我们自己与这种解释相结合,可以避免在试图推断与文献中研究的地点有太大根本差异的地点时出现的地点选择问题。2.2估计估计模型2.1-2.4的层次似然度中规定的未知参数是一个挑战,因为较低层次的参数可能值受较高层次的参数值的影响,从而在似然度中引入涟漪。理论上可以使用最大似然方法或贝叶斯方法,但在实践中,有很多理由倾向于使用贝叶斯推理来解决这个问题。最大可能性(Maximum似然)的主要问题是,为了获得可处理性,通过“经验贝叶斯”进行估计,它首先测试上层参数,然后将这些点估计插入下层以估计下层参数。通过调节超参数的单个值,该程序系统地低估了模型较低级别的不确定性。相比之下,贝叶斯推理是通过同时估计所有未知参数的完全联合后验分布来进行的,边缘分布提供了准确的不确定性区间。贝叶斯方法不需要MLE方法对可分割性进行折衷,因为它使用一种强大的模拟技术马尔科夫链蒙特卡罗方法进行估计。这些方法需要适当的后验分布作为目标分布,这通常需要对未知参数使用适当的先验分布。

15
大多数88 在职认证  发表于 2022-6-4 12:47:10
这些先验知识还允许研究人员通过定位参数空间中更可能包含相关值的区域来改进估计;如果只能获得这方面的权威知识,那么先验知识就可以发挥很大的作用(有时称为“弱信息”)。如果在看到数据之前可以获得关于可能值的大量专家知识,那么这当然可以通过更强大的先验知识进行整合。即使先验分布的中心不正确,有效地使用先验仍然可以通过减少方差来改善估计的均方误差,但代价是偏差增加,即先验使估计正则化。贝叶斯推理还为政策和未来研究的决策提供了一个框架,在频繁推理中没有对应的框架。事实上,我们的目标本身是以贝叶斯思想为基础的:我们试图利用其他位置的参数信息更新我们对一个位置未知参数的理解。此外,如果我们希望做出考虑未知参数不确定性的决策,那么接受期望的正确目标是未知的后验分布,而不是未知估计量的抽样分布。

16
mingdashike22 在职认证  发表于 2022-6-4 12:47:13
由于决策者感兴趣的对象是假设未来地点治疗效果的分布,τK+1,因此计算该分布时必须考虑到完整的联合后验不确定性,而不是将其限制在特定的点估计或甚至特定的区间估计上-贝叶斯方法以后验预测推理的形式提供了这一点,没有与常客等价的。在本文中,我对方程2.3中描述的模型的主要规格使用以下先验条件进行贝叶斯推断:μτ!~ N“0 1000#!σyk~ U【0,100000】 kV=diag(θ)Ohm对角线(θ)θ~ 柯西(0,10)Ohm ~ LKJcorr(3)。(2.6)将V矩阵分解为相关矩阵Ohm 比例因子θ遵循Gelman和Hill(2007)的建议。θ上的Cauchy(0,10)允许标度变化很大,而LKJcorr(3)在Ohm 是所有相关矩阵空间的先验值,有利于独立或不相关变量周围的区域(斯坦开发团队,2014)。在这种情况下,先验知识来自于经济理论,该理论表明这种相关性可能会产生某种信号:也许小额信贷只对相对富裕的企业家有效,但也许它的边际回报在递减。由于只有7项研究,我们不应该太过戏剧性地更新我们对这种相关性的信念,因此有理由更强烈地向零提前。在任何情况下,超方差θ和相关性的估计Ohm 这是一项具有挑战性的工作,由于数据太少,先验知识通常会对后验推理产生影响。事实上,希望在这里注入先验信息,而不是依赖于在低数据环境中计算的“原始”相关性,因为低数据环境本身就有噪声。

17
何人来此 在职认证  发表于 2022-6-4 12:47:17
然而,作为稳健性检验,在本文中,我还将验证经典的Rubin(1981)模型,该模型的推论在有效使用时对先验不敏感。我还将给出一个版本的主要规范(方程式2.3),该规范规定了集{τk}Kk=1和{uk}Kk=1之间的独立性,从而消除了这种敏感性。虽然对先验的敏感性会使推理复杂化,但消除敏感性只能使用受限的函数形式,因此最好检查完整的结果集,而不是依赖于简单的模型。基本全数据模型的后验分布与方程2.3中的相似性和方程2.6中的先验分布的乘积成正比:p(τ,u,τ,τ,…| Y)∝ πNi=1∏Kk=1(N(yik |uk+τkTik,σyk))×πKk=1(N((uk,τk)|(u,τ),V)×N((u,τ)|(0,0),I)×Cauchy(0,2.5)×LKJcorr(2)(2.7)这不是已知的分布,但可以通过MarkovChain蒙特卡罗方法(MCMC)的模拟来完全表征。MCMC方法背后的基本直觉是构造一个马尔可夫链,该马尔可夫链以后验分布作为其不变分布,因此在极限情况下,该链的抽取是后验分布的遍历抽取。该链是通过从每个“步骤”的已知分布中提取,并基于提取时的后验分布值,使用概率接受/拒绝规则来构建的。在本文中,我使用了一种称为哈密顿蒙特卡罗(HMC)方法的MCMC方法的特定子集,这种方法特别适合于估计层次模型(Betancourt和Girolami,2013)。HMC使用离散化哈密顿动力学从Postrior中进行采样,并显示出良好的性能,尤其是与无U形转弯采样方法(NUTS)相结合,可以自动调整链中的步长(Gelman和Hooffman,2011)。

18
kedemingshi 在职认证  发表于 2022-6-4 12:47:20
HMCwith NUTS很容易实现,因为它可以在Stan中自动完成,这是一个免费软件模块,可以调用C++来拟合R或Python的贝叶斯模型(Stan DevelopmentTeam,2014)。Stan通常只需要用户输入似然性和先验性的方程式,尽管更复杂的模型得益于编写的代码更高效。Stan会自动报告后验均值(例如τ的|τ)及其边缘化后验方差(例如|seτ),提供最有可能为真的参数值以及我们应该对其值的确定程度。Stan还自动报告95%可信区间和50%可信区间的边缘值。Stan还计算并报告了HMC在每个模型中的几个性能指标和收敛诊断。首先,它报告了后验平均值的蒙特卡罗误差,如果采样器已经收敛,相对于平均值的大小,后验平均值应该很小。其次,通过随机扰动HMC链的起始点,然后检查链间方差相对于链内方差的关系,计算Gelman和Rubin(1992)的^R度量。如果所有链都收敛到后验点,则它们的With不变性应该与它们的方差之间的不变性相同:R是这些方差的比率,应该接近1。对于每个模型,我运行4条链,并接受^R<1.1.2.3合并指标贝叶斯层次模型配备了几个自然指标,以评估统计人员开发和研究的后验分布中所示站点的合并程度(Gelman et al 2004,Gelman and Pardoe 2006)。

19
何人来此 在职认证  发表于 2022-6-4 12:47:24
在多研究聚合的背景下,作为外部有效性的衡量标准,跨研究地点的聚合范围有一个自然的解释。完全汇集(στ=0)的极端情况对应于完美的外部有效性,其中所有τk=τ,因此,通过在一个地点进行研究,我们了解了所有k地点的治疗效果,就像我们对我们研究的特定地点所了解的一样。估计值可能有噪声或有其他问题,但对场地k和场地k同样有效。无池情况下,τ是非信息对象(στ→ ∞), 对应于零外部有效性,因为我们没有从站点k了解到任何关于站点k的信息。因此,在这个框架中,外部有效性的一个明显度量是στ的大小,对它的一个很好的估计是后验平均值表示的στ。使用∧∑τ作为池度量的缺点是,在任何给定的上下文中,不清楚究竟是什么构成了该参数的大值还是小值。因此,尽管报告和解释∑τ很重要,但检查其大小可解释的池指标也很有用。其中包括常规的“池系数”指标,定义如下(Gelman and Hill 2007,第477页):ω(τk)=^sekστ+^sek。(2.8)该指标支持[0,1],因为它将估计值insite k中的潜在变化分解为真实的潜在不确定性和抽样误差。它将∑τ的大小与^sek的大小进行了比较,这是从场地k分离出的处理效果估计中的抽样变化。这里,ω(τk)>0.5表明∑τ小于抽样变化,表明信息的实质性汇集和一个“小”的∑τ。如果这些跨站点的K池指标的平均值高于0.5,则表明真正的潜在异质性小于平均抽样方差。

20
kedemingshi 在职认证  发表于 2022-6-4 12:47:31
在这种情况下,τkis是τ的更好信号,而不是τk的^τkis,如果我们对每个站点使用我们的无池模型感到满意,那么我们应该对一般情况进行推断。ω(τk)使用采样变化作为比较的事实既是一种特征也是一种倒退。从某种意义上说,这正是正确的比较,因为我们通过分析k站点的数据来衡量我们对Kb站点的了解程度,而通过分析k站点的数据来衡量我们对Kb站点的了解程度,k站点的数据是通过^τk中的采样变化来获取的。然而,在另一种意义上,如果由于数据中异常小或大的样本量或波动性或噪声水平,导致采样变化非常大或很小,那么有一种替代的池计量方法可能是有益的。在本文中,我考虑了两个额外的指标,它们是有用的替代方案。第一个这样的度量是传统池度量的“蛮力”版本,我定义如下:ωb(τk)≡ {ω:¢τk=ω¢τ+(1- ω) ^τk}。(2.9)该指标评分了k点治疗效果的后验平均值(表示为τk)与一般效果的后验平均值τ与分离的无池效应τk的对齐程度。此处,ωb(τk)>0.5表明,广义处理效应实际上比从场地k中分离出来的对场地k影响的估计更能说明场地k中的影响(因为τkas是我们对场地k影响的最佳估计)。计算ωb(τk)的动机是,在Rubin(1981)模型中,它实际上与传统的池指标相同,但在跨多个参数的更复杂模型中(如模型2.3)不相同。用简单代数求解ωb(τk)是一种“蛮力”方法,它在这些更复杂的模型中提供了有用的额外度量。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-23 10:14