楼主: 何人来此
904 38

[量化金融] 理解小额信贷扩张的影响:贝叶斯模型 [推广有奖]

11
何人来此 在职认证  发表于 2022-5-14 22:15:17
这些可以在贝叶斯框架内通过强先验实现,将这些站点级变量的回归系数降到零。表示这些协变量X,假设我们有M个这样的协变量,可以解释或预测治疗效果的变化。然后,下面的Bayesian层次结构模型将提供这种条件作用,或者条件作用加正则化,具体情况可能是:yik~ N(uk+τkTik,σyk) i、 kukτk!~ Nu+Xβμτ+Xβτ!,五、式中V=∑uστuστuστ# k、 βu~ N(0,σβu)βτ~ N(0,σβτ)(2.5)从概念上讲,所有这些模型都通过指定不同部位的异质性处理效果,同时考虑到共同组分τ的存在,来解决研究聚集中的基本张力。对于共同成分在多大程度上决定每个部位的治疗效果,层次结构是不可知的,因为控制其影响的参数στ本身是根据数据估计的。通过考虑任何στ∈ [0, ∞),该结构嵌套了两种情况,一种是“完全池”情况,其中各站点之间没有异质性(στ=0),另一种是“无池”情况,其中站点没有公共组件(στ=0)→ ∞).通过允许数据确定στ的最可能值,分层模型实现了“部分池”(Gelman等人2004)。分层框架解决的核心挑战是将采样变异与不同地点治疗效果的真正异质性分离。这只能通过对问题施加某种结构来实现。通过参数可能性,我们可以利用现场特定治疗效果的相对位置,结合因结果差异而产生的差异精度信息,推断出真正的异质性。

12
何人来此 在职认证  发表于 2022-5-14 22:15:20
这种功能形式允许我们在这个灵活的结构中实现部分汇集,而不是先验地确定抽样变量的相对大小和真正的影响异质性。如果没有这种结构,或者类似的结构,分析人员必须选择一种无汇集模型,将研究中的所有变异归因于基因治疗效应的异质性,或者选择一种完全汇集模型,将其归因于纯粹的取样变异。分析多研究数据的流行“无功能形式”方法依赖于这些假设。计算K估计治疗效果的精确加权平均值是一种完全汇集技术,汇集数据并通过普通最小二乘法进行一次回归也是如此。如果严格的全池假设是错误的,这些方法将低估站点之间的异构性。通过普通最小二乘法运行K个不同的回归是一个无池模型,如果严格的无池假设是错误的,那么集合{τK}Kk=1中的可变性将高估整个场地的异质性。出现这种高估的原因既有K分离回归无法通过部分池进行跨设置的推断,也有因为该程序隐含地将所有变化归因于真正的潜在异质性(有关此类分析的示例,请参见Pritchett和Sandefur 2015)。

13
可人4 在职认证  发表于 2022-5-14 22:15:23
因此,虽然参数似然性使模型看起来比随机试验的典型经济计量分析更结构化,但事实上,这种设置允许我们免除这些更严格的结构和假设。这些模型确实要求处理效果是“可交换的”,以便更好地发挥作用,这意味着它们的联合分布必须对K指数的排列保持不变。例如,这意味着我们不知道治疗效果的顺序——尽管我们知道它们可能不同,而且我们可以想到为什么一个网站的效果可能比另一个网站大或小,但在看到数据之前,我们实际上不知道该网站将如何排序。如果我们知道一个协变量应该与治疗效果相关,我们可以使用方程2.5中的模型,这将需要条件可变性。总的来说,这一要求意味着我们只能评估事实上可交换的一组网站的外部有效性和通用性。我们希望预测或推断治疗效果的任何未来地点必须与我们已经研究过的地点集交换。仅使用RCT数据意味着我们可以概括出一组研究地点,这些地点可能是我们研究的干预措施的RCT的位置,但我们不能将我们的结果转移到这组之外。

14
能者818 在职认证  发表于 2022-5-14 22:15:26
根据这种解释,我们可以避免在试图推断与文献中研究的地点有太大根本差异的地点时出现的地点选择问题。2.2估算模型2.1-2.4的分层似然度中规定的未知参数是一个挑战,因为较低级别的参数的可能值受较高级别的参数值的影响,从而在似然度中引入涟漪。理论上可以使用最大似然方法或贝叶斯方法,但在实践中,有强烈的理由倾向于使用贝叶斯推理来解决这个问题。最大似然法的主要问题是,为了获得可处理性,通过“经验贝叶斯”进行估计,该方法首先测试上层参数,然后将这些点估计插入下层,以估计下层参数。通过调节超参数的单个值,该程序系统地低估了模型较低级别的不确定性。相比之下,贝叶斯推理是通过同时估计所有未知参数的完全联合后验分布来进行的,从中,边际分布提供了准确的不确定性区间。贝叶斯方法不需要MLE方法对可分割性进行折衷,因为它使用一种强大的模拟技术马尔科夫链蒙特卡罗方法进行估计。这些方法需要适当的后验分布作为目标分布,这通常需要对未知参数使用适当的先验分布。

15
nandehutu2022 在职认证  发表于 2022-5-14 22:15:30
这些先验知识还允许研究人员通过定位参数空间中更可能包含相关值的区域来改进估计;如果只能获得关于这一点的权威知识,那么先验知识就可以发挥相当大的作用(有时被称为“弱信息”)。如果在看到数据之前能够获得关于可能值的大量专家知识,那么这当然可以通过更强的先验知识结合起来。即使优先级分布的中心不正确,有效地使用优先级仍然可以通过减少方差来改善估计的均方误差,但代价是偏差的增加,也就是说,优先级使估计正则化。贝叶斯推理还为政策和未来研究的决策提供了一个框架,在频繁推理中没有对应的框架。事实上,我们的目标本身是以贝叶斯思想为基础的:我们试图利用其他位置的参数信息更新我们对一个位置未知参数的理解。此外,如果我们希望做出考虑未知参数的不确定性的决策,那么接受期望的正确目标是未知的后验分布,而不是未知估计量的抽样分布。

16
mingdashike22 在职认证  发表于 2022-5-14 22:15:34
由于政策制定者感兴趣的对象是治疗效果在假设的未来地点τK+1的分布,因此计算该分布时必须考虑完整的联合后验不确定性,而不是将其限制在特定的点估计或甚至特定的区间估计上——贝叶斯方法以后验预测推理的形式提供了这一点,没有与常客等价的。在本文中,我对方程2.3中描述的模型的主要特征进行了贝叶斯推断:ττ!~ N“0 1000#!σyk~ U[0,100000] kV=diag(θ)Ohm对角线(θ)θ~ 柯西(0,10)Ohm ~ LKJcorr(3)。(2.6)将V矩阵分解为相关矩阵Ohm 比例因子θ遵循Gelman和Hill(2007)的建议。θ上的柯西(0,10)允许标度变化很大,而LKJcorr(3)在Ohm 是所有相关矩阵空间上的先验值,有利于独立或不相关变量周围的区域(Stan Development Team,2014)。在这种情况下,先验知识是由经济理论提供的,这表明这种相关性可能需要信号:也许小额信贷只适用于相对富裕的企业家,但也许它的边际回报在递减。在仅有7项研究的情况下,我们不应该过于剧烈地更新我们对这种相关性的看法,因此,有理由更强烈地接近零。在任何情况下,超方差θ的估计和Ohm 这是一项具有挑战性的工作,由于数据太少,先验知识通常会对后验推理产生影响。事实上,我们希望在这里注入先验信息,而不是依赖于在低数据环境中计算的“原始”相关性,因为低数据环境本身就有噪声。

17
mingdashike22 在职认证  发表于 2022-5-14 22:15:38
然而,作为稳健性检验,在本文中,我还将验证经典的Rubin(1981)模型,该模型的推论在有效使用时对先验不敏感。我还将给出一个主要规范(方程式2.3)的版本,该版本规定了集合{τk}Kk=1和{uk}Kk=1之间的独立性,从而消除了这种敏感性。虽然对先验的敏感性会使推理复杂化,但消除敏感性只能使用受限的函数形式,因此最好检查完整的结果集,而不是依赖更简单的模型。基本完整数据模型的后验分布与方程2.3中的相似性和方程2.6中的先验分布的乘积成正比:p(τ,u,τ,τ,…|Y)∝ πNi=1∏Kk=1(N(yik |uk+τkTik,σyk))×πKk=1(N((uk,τk)|(u,τ),V)×N((u,τ)|(0,0),I)×Cauchy(0,2.5)×LKJcorr(2)(2.7)这不是一个已知的分布,但可以通过马尔科夫链蒙特卡罗方法(mcmcmc c)的模拟来完全表征。MCMC方法背后的基本直觉是构造一个马尔可夫链,该马尔可夫链以后验分布作为其不变分布,因此在极限情况下,该链的抽取是后验分布的遍历抽取。该链是通过在每个“步骤”从已知分布中提取,并基于提取时的后验分布值,使用概率接受/拒绝规则来构建的。在本文中,我使用了一种称为哈密顿蒙特卡罗(HMC)方法的MCMC方法的特定子集,这种方法特别适合于估计分层模型(Betancourt和Girolami,2013)。HMC使用离散化的哈密顿动力学从后视镜中采样,并已显示出良好的性能,尤其是与无U形转弯采样方法(螺母)相结合,以自动调整链中的步长(Gelman和Ho Off-man,2011)。

18
mingdashike22 在职认证  发表于 2022-5-14 22:15:41
HMCwith NUTS易于实现,因为它可以在Stan中自动完成,Stan是一个免费的软件模块,可以调用C++来拟合R或Python中的贝叶斯模型(Stan DevelopmentTeam,2014)。Stan通常不需要用户输入更多信息,只需要输入似然性和先验性的方程式,尽管更复杂的模型得益于编写的代码更高效。Stan会自动报告后验均值(例如τ为τ)及其边缘化的后验方差(例如seτ),提供最有可能为真的参数值以及我们对其值的确定程度。Stan也会自动报告95%可信区间和50%可信区间的边缘值。Stan还计算并报告了HMC在每个模型中的几个性能指标和收敛诊断。首先,它报告了后验平均值的蒙特卡罗误差,如果采样器已经收敛,相对于平均值的大小,后验平均值应该很小。其次,通过随机扰动HMC链的起始点,然后检查链间方差相对于链内方差,计算Gelman和Rubin(1992)的^R度量。如果所有的链都收敛到后验点,它们的With不变性应该与它们之间的方差相同:^R是这些方差的比率,应该接近1。对于每个模型,我运行4条链,并接受^R<1.1.2.3汇集指标。贝叶斯层次模型配备了几个自然指标,以评估统计学家开发和研究的后验分布中所示站点之间的汇集程度(Gelman et al 2004,Gelman and Pardoe 2006)。

19
mingdashike22 在职认证  发表于 2022-5-14 22:15:45
在多研究聚合的背景下,作为外部有效性的衡量标准,跨研究地点的聚合范围有一个自然的解释。完全汇集(στ=0)的极端情况对应于完美的外部有效性,其中所有τk=τ,因此,通过在一个地点进行研究,我们了解了所有k地点的治疗效果,正如我们对我们研究的特定地点所做的一样。估计可能有噪声或其他问题,但它对场地k和场地k同样有效。在无池情况下,τ是一个非信息对象(στ)→ ∞), 对应于零外部有效性,因为我们没有从站点k了解到任何关于站点k的信息。因此,在这个框架中,外部有效性的一个明显指标是στ的大小,对它的一个很好的估计是后验平均值表示的∑τ。使用∑τ作为池度量的缺点是,在任何给定的上下文中,不清楚究竟是什么构成了该参数的大小值。因此,虽然报告和解释∑τ很重要,但检查其大小易于解释的合并度量也很有用。其中包括常规的“池系数”指标,定义如下(Gelman and Hill 2007,第477页):ω(τk)=^sekστ+^sek。(2.8)该指标支持[0,1],因为它将估计值中的潜在变化分解为真实的潜在不确定性和抽样误差。它将∑τ的大小与^sek的大小进行了比较,^sek是从场地k分离的处理效果估计中的采样变化。这里,ω(τk)>0.5表明∑τ小于采样变化,表明信息的基本汇集和一个“小”的∑τ。如果这些K池指标在不同地点的平均值高于0.5,则表明真正的潜在异质性小于平均抽样方差。

20
nandehutu2022 在职认证  发表于 2022-5-14 22:15:48
在这种情况下,τkis比τk的^τkis是更好的τ信号,如果我们对每个站点使用我们的无池模型感到满意,那么我们应该对一般情况进行推断。ω(τk)使用采样变化作为比较的事实既是一种特征,也是一种回溯。从某种意义上说,这正是正确的比较,因为我们通过分析k站点的数据来衡量我们对Kb站点的了解程度,而我们通过分析k站点的数据来衡量我们对Kb站点的了解程度,这是通过^τk中的采样变化来获取的。然而在另一种意义上,如果由于数据中异常小或大的样本量或波动性或噪声水平,导致采样变化非常大或很小,那么有一种替代的池计量方法可能是有益的。在本文中,我考虑了两个额外的指标,它们是有用的替代方案。第一个这样的度量是传统池度量的“蛮力”版本,我定义如下:ωb(τk)≡ {ω:■τk=ω■τ+(1)- ω) ^τk}。(2.9)该指标记录了k点治疗效果的后验平均值(表示为τk)与一般效果τ的后验平均值(相对于分离的非共有效应τk)的对齐程度,ωb(τk)>0.5表明,广义处理效应实际上比从场地k中分离出来的对场地k的影响的估计更能说明场地k中的影响(因为τkas是我们对场地k中影响的最佳估计)。计算ωb(τk)的动机是,在鲁宾(1981)模型中,它实际上与传统的合并度量相同,但在跨多个参数合并的更复杂模型(如模型2.3)中,它并不相同。用简单代数求解ωb(τk)是一种“蛮力”方法,它在这些更复杂的模型中提供了一个有用的额外度量。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-23 06:10