楼主: kedemingshi
836 35

[量化金融] 通过公共土地处置进行国家建设?矩阵的一个应用 [推广有奖]

11
何人来此 在职认证  发表于 2022-6-14 07:58:43
(2021)预测反事实结果,并通过倾向加权损失函数来扩展该方法,以纠正治疗组和对照组之间观察到的协变量分布的不平衡。矩阵完成方法试图通过核范数最小化解决凸优化问题来插补缺失值,即使在数据矩阵中观察到相对较少的值(Cand\'es和Recht,2009;Candes和Plan,2010;Mazumder等人,2010)。对于每个机组i∈ {1,…,N}并且在每个时间t∈ {1,…,T}我们观察到结果和治疗指标∈ {0, 1}. 按照Athey和Imbens(2021)的表示法,设a为长度为N的向量,其中ai∈ {1,…,T,∞} 索引初始治疗时间,ai=∞ 表示控制单元。如果单元在面板期间进入治疗(ai6=∞), 它在面板的其余部分仍保持处理状态。控制单元数量非零,NC=N-朴=∞, (·)表示指示器功能,anonzero数处理单位NT=N- NC=Piai6=∞. 当t≥ 人工智能。根据内曼·鲁宾潜在结果框架(鲁宾,1990),对于每一个结果i和时间t,都存在潜在结果Y(a)it。根本问题是,我们只能在每个单位时间观察中观察到一个潜在结果:Y(ai)在进入治疗时对治疗单位有效,而Y(∞)对照组在所有时间段内均观察到这一现象。潜在结果框架隐含地假设治疗已明确,以确保每个单元具有相同数量的潜在结果。

12
kedemingshi 在职认证  发表于 2022-6-14 07:58:46
它还要求单位i的潜在结果随Ai而变化,但不随a的其他值而变化,这通常被称为无干扰。有两个额外的假设需要将潜在结果写为a的函数,这两个假设都是在Athey和Imbens(2021)中提出的。首先,没有任何干预作用;i、 e.,Y(a)it=Y(∞)适用于所有ai≥ t、 这一假设通常在小组数据研究中进行,假设如果一个单元尚未进入治疗,初始治疗时间对当前时期的潜在结果没有因果影响。第二,t期的潜在结果与装置暴露于治疗的时间无关;i、 e.,Y(a)it=Y(1)it,适用于所有ai≤ t、 3.1。因果估计感兴趣的因果估计是与对照组(ai=∞), 关于t期的结果:τt,∞ai=NTNTXi=1Y(ai)it- Y型(∞)它,因为Wit=1。(1) 在应用程序中,我认为ai=min1≤我≤NTai,或治疗单位中最早的家庭寄宿年份。反事实期间的平均ATT也很有趣:τ∞ai=aiTXt=aiτt,∞人工智能。(2)3.2. 结果模型和估计在应用中,利益的结果是国家能力,由国家ZF支出和收入衡量。根据Athey等人(2021)规定的结果模型,Imodel将结果建模为:Yit=Lit+γi+δt+它,(3)其中,它是未知矩阵中的一个典型元素,L=UV>,是因子载荷矩阵UN×R和因子矩阵VT×R的乘积。在关于潜在因子模型的文献中,估计L依赖于对其秩的划分。在矩阵完成文献中(例如,Cand\'es和Recht,2009;Mazumder et al.,2010;Recht,2011),假设rankof L相对于N和T较低。比如Athey等人。

13
kedemingshi 在职认证  发表于 2022-6-14 07:58:49
(2021),该模型包括单位特异性效应{γi}Ni=1和时间特异性效应{δt}Tt=1,以分别控制时间和单位变量的未测量混杂。确定的假设是错误itare conditionally means zero and independent of ai,for all value of i and t.假设1。条件外生性:E(it | Lit,γi,δt)=E(it | Lit,γi,δt,ai)=0。这一假设排除了任何时期错误与治疗时间之间的相关性(Ben Michael et al.,2019)。设O表示观测值集;i、 e.Wit=0的值。估计包括通过核范数正则化最小二乘法最小化平方误差之和:arg minLit,γi,δt“| O | X(i,t)∈OWit(1- ^wit)+(1- Wit)^WitYit公司- 点燃- γi- δt+ λLkLk?#,(4) 核规范在哪里,k·k=Piσi(·)或奇异值之和用于产生L的低秩解。通过五次交叉验证从30个可能值中选择的超参数λLis的值,其中在每一次折叠中,随机选择O中80%的条目用于训练,而剩余20%的条目用于模型验证。然后,使用O中的所有条目对具有λ左值的模型进行拟合,该模型在验证集上产生的平均均方根误差(RMSE)最低。估计方程(4)与Athey等人(2021)中的相同,除了平方损失由估计的倾向得分加权,即,为了更加强调O中的值的损失,在治疗前结果和协变量方面,与缺失值最为相似,Vip,其中p表示协变量的数量。在应用程序中,这些数据包括特定单位的平均农场规模和ai之前测量的平均农场价值。

14
可人4 在职认证  发表于 2022-6-14 07:58:52
重叠权重用于避免极端倾向权重:观察值治疗后的权重为1- ^wit和控制下的观察值接收到的光等于^wit(Li et al.,2018)。假设2。重叠:0<wit<1,其中wit=PrWit=1 | Yi,1,易,ai-1、Vip.假设(2)需要通过属性得分(wit)来总结治疗分配机制,我通过多反应套索回归(Friedman et al.,2010)对其进行估计。求解(4)的算法用矩阵奇异值分解恢复的值迭代替换缺失值(Mazumder et al.,2010)。一旦估算了L、γ和δ,在假设(1)的情况下,我们可以通过^Y预测后处理期内处理单元的反事实值(∞)it=^Lit+^γi+^δt, (i,t)∈\'O.3.3。模拟I评估了以下三个数据集上矩阵完成估计值与综合控制文献的一致性,并从每个数据集中删除了实际处理单元:Abadie和Gardeazabal(2003)对20世纪60年代末巴斯克国家恐怖主义经济影响的研究(N=16,T=43);Abadie等人(2010年)对1988年在加利福尼亚州实施的大规模烟草控制计划的影响进行的研究(N=38,T=31);以及Abadie等人(2015)关于1990年德国重新统一对西德经济影响的研究(N=16,T=44)。对于每次试验,我随机选择一半待治疗的对照单位,并在从{ai,…,T}中随机选择aplacebo治疗时间后预测其缺失值,其中ai=min1≤我≤NTai。我根据平均RMSE评估矩阵完成(MC)估计器相对于DID和SCM的性能,比较实际值和插补值。DID估计器是对治疗结果以及单位和时间固定效应的回归(Athey和Imbens,2021)。

15
kedemingshi 在职认证  发表于 2022-6-14 07:58:55
SCM是在相同时期内,每个受试单位的预处理结果对对照单位结果的回归,受Abadie等人(2010)原始SCM的限制,即无截距和非负回归权重之和为1(Doudchenko和Imbens,2016;Athey等人,2021)。我在第A1节中提供了这些估算值的确切形式。图1报告了合成控制数据集上估计器的平均预测误差。平均RMSE通常随着安慰剂数据中最早治疗时间与周期数的比率ai/T接近统一而降低,因为估计器需要更多的数据进行训练。就不同比率的平均RMSE而言,MC估计值通常优于所有其他估计值。MC估计器的强大性能可归因于这样一个事实,即它能够以治疗单元的治疗前观察值的形式使用额外的信息,而基于回归的估计器仅基于对照单元的治疗前观察值来预测反事实。图2显示了州政府支出数据对照单位的安慰剂测试结果。该估计器在最小化每个比率的RMSE方面优于DID估计器。At ai/T≥ 0.5时,估计量产生与综合控制估计量相当的误差率。3.4. 假设检验ChernoZhukov et al.(2017)提出了一种随机化推理方法,用于检验尖锐的零假设H:^τt,∞ai=τot,∞ai,其中{τot,∞ai}Tt=ai是空值下每个周期平均效应的轨迹。作者建议的检验统计量是为了拒绝较大的值:Sq(^τt,∞ai)=pT公司- aiTXt=ai+1τt,∞ai | qq、 (5)其中q∈ {1,2}是一个常数。

16
kedemingshi 在职认证  发表于 2022-6-14 07:58:58
使用此检验统计量,我们可以计算null下的随机化p值:^p=1-πXπ∈πInSq(τπt,∞ai)<Sq(^τt,∞ai)o,(6)其中{τπt,∞ai}Tt=aidenotes每个周期平均因果效应的向量估计为每个周期π∈ π,I(·)表示指示器功能。该方程通过沿时间维度排列Yitacross估计。Abadie et al.(2010)提出的排列时间段而非处理分配的想法是,如果数据是平稳且弱依赖的,这在聚合时间序列设置中经常出现,那么图1:合成控制数据集的模拟。误差条的计算方法是取平均RMSE±1000次平均RMSE标准误差的1.96倍。x轴是安慰剂初始治疗时间与安慰剂数据中周期数的比率。估计值在x轴上抖动以避免重叠。图2:州ZF支出数据模拟。参见图1的注释。误差项的分布itin(3)在治疗前后应相同。Chernozhukov等人(2017年)证明,在一致的估计下,由其推理程序得出的^p值几乎是无偏的。在下面的分析中,我使用了两种不同类型的置换:K=T/b非重叠块的I.I.d.块随机置换,其中b是根据依赖引导的最佳块长度选择的(Politis和White,2004),以及将T循环移位一个周期的movingblock置换,导致T- 1排列。这两种置换结构能够保持数据的依赖结构,因此适用于弱依赖数据。4.

17
kedemingshi 在职认证  发表于 2022-6-14 07:59:01
应用:宅地政策和国家能力在应用中,我估计宅地政策对国家能力的因果影响,通过州政府支出和收入衡量。我根据1789年至1932年期间48个州政府的记录(Sylla等人,1993年)、1933年至1937年期间16个州政府的记录(Sylla等人,1995a,b)以及1902年、1913年、1932年、1942年、19441946年、1948年和1950年至2008年美国人口普查特别报告,创建支出总额和收入的衡量指标,覆盖48个州(海恩斯,2010;美国人口普查局,2010)。支出指标包括州政府在教育、社会福利计划和交通方面的支出。收入指标包括州政府收入,如税收和非税收收入,如土地销售。支出和收入数据预处理步骤如下。剔除方差为零或接近零的年份,结果矩阵由N=48个美国州的T=203个观察值组成,其中30个州进行了处理。结果数据根据美国消费者价格指数(Williamson,2017)进行了调整,并根据十年一次的人口普查(Haines,2010)中的总自由人口进行了缩放。我通过链式方程(MICE)的多元插补来估算由于缺乏覆盖率而缺失的39%的值,并使用完全有条件的规范进行多重插补(Buuren和Groothuis Oudshoorn,2010)。我将图A2中缺失数据的范围可视化,并评估表A1中因果估计对替代插补方法的敏感性。最后,我对数据进行日志转换以减轻指数效应。PLS是经过处理的单位,州土地州(即非公共领域的州,因此不受宅地政策的直接影响)作为控制单位。

18
何人来此 在职认证  发表于 2022-6-14 07:59:04
后者包括最初13个殖民地的州,缅因州、田纳西州、德克萨斯州、佛蒙特州和西弗吉尼亚州。交错采用设置对于当前的应用程序来说是合适的,因为在HSA通过后暴露于宅地的各州之间,AI有所不同。我根据HSA(GLO,2017)授权的个人土地专利记录总计约146万份,达到州一级。根据这些记录,我确定最早的宅地登记发生在1869年,大约一半的西部边境州,大约是在HSA颁布后的七年。1872年,第一批宅基地位于PLS南部。图A1.4.1显示了各州初始宅基地的时间安排。在估计(3)–(4)时,控制偏差预计有两个偏差来源:选择偏差和干扰。当治疗的可能性取决于未观察到的数据时,就会出现选择偏差,这违反了假设(1)。这一假设无法直接测试,因为我们无法获得未观察到的数据,我们可以最大限度地减少预处理结果分布与PLS和州-地状态观测协变量之间的不平衡,我估计了(2)中规定的处理模型,并根据估计的倾向得分(4)对训练损失进行加权。我将1860个平均农场规模、1850个和1860个平均农场价值(Haines,2010)以及州一级的每平方英里运营铁路总英里数的份额包括在治疗前几年的治疗模型人均支出或平均收入中,我通过将铁路线图覆盖在历史县订单上计算得出(Atack,2013)。

19
kedemingshi 在职认证  发表于 2022-6-14 07:59:07
这些预处理协变量控制着向更具农业生产能力的土地的选择性迁移,以及因进入边境土地的差异而产生的选择偏差。第2节中报告的对治疗前数据的安慰剂试验提供了间接证据,证明未违反假设(1)。假设(2)也无法直接测试,因为我们不知道真正的治疗模型。我通过(I.)采用(4)中训练损失的重叠权重,降低极端估计开放度权重的流行率;和(ii.),通过截断估计的倾向,使其不低于0.01或大于0.99。第二个潜在的偏差源来自干扰。这种方法与现代因果推理框架一致,假设控制单元不受治疗效果的影响。虽然无法直接检验无干扰假设,但在本申请中,州土地州(即控制单元)的结果很可能受到来自边境州(即处理单元)的宅基地移民的间接影响。假设没有干扰,使用间接影响状态作为控制单元会低估治疗效果,因为这会使治疗后期间的实际和观察到的治疗单元观察结果更加相似。如果州ZF增加公共投资,以劝阻工人从一开始就移民到边境,也可能会产生干预。然而,历史证据表明,劳动力稀缺的边境州比长期定居的州陆地州更能吸引移民和刺激人口增长(Engerman和Sokolo ff,2005)。

20
可人4 在职认证  发表于 2022-6-14 07:59:10
例如,在西方各州,通过义务初等教育法和支持公共教育被视为吸引潜在移民到边境的一种手段(Meyer等人,1979年;Bandieraet等人,2018年)。州ZF之间的竞争所产生的干预也会低估治疗的效果。无干扰假设也无法直接测试;然而,州土地州很可能受到PLS中宅基地移民的间接影响。这种情况下的干扰会导致低估估计的治疗效果。4.2. 矩阵完成估计将矩阵完成估计(3)-(4)应用于Y中观察到的全部条目,以恢复其缺失条目;i、 e.治疗单位的反事实结果(即PLS)。图3的顶部面板比较了治疗单元和对照单元(即州和州)的观测时间序列以及治疗单元的预测结果。灰线代表最早的初始治疗年份,ai=min1≤我≤NTai=1869。治疗组和对照组在治疗后的观察值基本相同。观察到的和预测的治疗单元结果的差异,即数量^τt,∞ai,对应于治疗单位每段时间治疗的估计平均因果效应。这些每个周期的因果影响绘制在底部面板中,通过计算1000个块引导重复的^τt分布的标准误差估计95%的置信区间,∞人工智能。在预治疗期间,两种结果的每个周期影响基本上为零,并且在引导置信区间的范围内,这表明该模型与预治疗期间的观察结果非常吻合。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-1 08:40