楼主: 大多数88
2146 42

[量化金融] 具有潜在多个控制的半参数差分 [推广有奖]

11
大多数88 在职认证  发表于 2022-6-11 08:18:22
启发式地,新得分函数的一个显著特征是,它们相对于其内部维度干扰参数的导数为零。该特性可以帮助我们消除第一阶段估计的一阶偏差,从而使基于这些新得分函数的估计量的偏差更小。

12
可人4 在职认证  发表于 2022-6-11 08:18:25
此外,我将使用交叉匹配算法来改善使用高度自适应ML方法时经常出现的过度匹配现象(Chernozhukov等人,2018)。3新的DID估计3.1主要算法假设假设假设(2.1)-(2.3)成立,考虑以下三个新的得分函数。案例1:重复结果的随机样本重复结果的新得分函数为ψ(W,θ,p,η)=Y(1)- Y(0)P(D=1)D- P(D=1 | X)1- P(D=1 | X)- θ-D- P(D=1 | X)P(D=1)(1- P(D=1 | X))E[Y(1)- Y(0)| X,D=0)|{z}c,(3.1),未知常数和有限维妨害参数η=(P(D=1 | X),E[Y(1)- Y(0)| X,D=0))=:(g,`)。情况2:具有重复横截面的随机样本重复横截面的新得分函数为ψ(W,θ,p,λ,η)=T- λλ(1 - λ) YP(D=1)D- P(D=1 | X)1- P(D=1 | X)- θ- c、 (3.2)其中调整期isc=D- P(D=1 | X)λ(1- λ) ·P(D=1)·(1)-P(D=1 | X))×E[(T- λ) Y | X,D=0]。干扰参数为未知常数pandλ和有限尺寸参数η=(P(D=1 | X),E[(T- λ) Y | X,D=0))=:(g,`)。案例3:每个w的多级治疗∈ {w,…,wJ},多水平治疗的新评分函数是ψw(w,θw0,pw0,ηw0)=Y(1)- Y(0)P(W=W)I(W=W)·P(W=0 | X)- I(W=0)·P(W=W | X)P(W=0 | X)- θw0- cw,(3.3),其中调整期限为cw=I(W=W)·P(W=0 | X)- I(W=0)·P(W=W | X)P(W=W)·P(W=0 | X)×E[Y(1)- Y(0)| X,I(W=0)=1]。干扰参数为未知常数pw0:=P(W=W)和有限维参数ηw0=(P(W=W | X),P(W=0 | X),E[Y(1)- Y(0)| X,I(W=0)=1]=:(g0w,g0z,`)。请注意,上述三个新函数等于原始分数函数(2.1)-(2.3)加上调整项(c、c、cw),它们的期望值为零。

13
mingdashike22 在职认证  发表于 2022-6-11 08:18:28
因此,新的评分函数(3.1)-(3.3)仍然在每种情况下识别ATT。我将使用这些新分数构建新的DID估计量。为了避免重复,当数据属于重复结果和重复横截面时,我将重点关注ATT的估计。多水平治疗的评估见附录。现在,我将上述得分函数与Hernozhukov等人(2018)的交叉拟合估计算法相结合。算法11。取K倍随机划分(Ik)Kk=1个观察指数[N]={1,…,N}。为简单起见,假设每个折叠ik具有相同的大小n=n/K。对于每个K∈ [K] ={1,…,K},定义辅助样本Ick:={1,…,N}\\Ik。2、对于每个k,构造中间ATT估计量|θk=nXi∈伊克迪- ^gk(Xi)^pk(1- ^gk(Xi))×易(1)- Yi(0)-^\'1k(Xi)(重复结果)~θk=nXi∈IkDi公司- ^gk(Xi)^pk^λk1.-^λk(1 - ^gk(Xi))×Ti公司-^λk易-^\'2k(Xi)(重复横截面),其中^pk=nPi∈IckDi,^λk=nPi∈IckTi,以及^gk、^\'1k、^\'2k是使用辅助样本Ick构造的(g,`,`)的估计量。3、构造最终ATT估计器▄θ=KPKk=1▄θk。估计器^gk、^\'1k、^\'2k可以使用任何ML方法或经典估计量(如核估计量或级数估计量)构造。为了完整性,我给出了Logit-Lasso和Lasso估计量。考虑一类Xi的逼近函数,qi:=(qi1(Xi)。。。,qip(Xi))。例如,QI可以是多项式或B样条曲线。设∧(u):=1/(1+exp(-u) )是标准Logistic分布的累积分布函数,构造倾向得分gby^gk(xi)的估计量:=∧qi^βk, (3.4)式中^βk:=arg minβ∈RpMXi∈艾克-Di(qiβ)+log1+经验qiβ+ λkkβkis是Logit-Lasso估计量,M=N- n是辅助样本Ick的样本量。接下来,定义Ickz:=Ick∩ {i:Di=0},mk Ickz的样本量。

14
kedemingshi 在职认证  发表于 2022-6-11 08:18:31
构造\'and\'by^\'1k(xi):=qi^β1k,^\'2k(xi):=qi^β2k,其中^β1k∈ arg最小值β∈卢比MkXi型∈Ickz公司易(1)- Yi(0)- qiβ+λ1kMkk^Υ1kβkand^β2k∈ arg最小值β∈卢比MkXi型∈Ickz公司Ti公司-^λk易- qiβ+λ2kMkk^Υ2kβkare Belloni、Chen、Chernozhukov和Hansen(2012)提出的修正Lasso估计量。处罚级别和荷载的选择λ1k,λ2k,^Υ1k,^Υ2k附录中提供了Belloni、Chen、Chernozhukov和Hansen(2012)的建议。3.2理论性质在本节中,我讨论了新的DID估计量|θ的理论性质。特别是,我将证明估计器θ可以实现√N-一致性和渐近正态性,只要第一阶段估计的收敛速度快于N-1/4. 这种收敛速度可以通过许多ML方法实现,包括Lasso和Logit-Lasso。此外,我将证明,当在第一阶段估计中使用核估计时,估计量θ具有SBP,而传统的半参数DID估计量不具有SBP。3.2.1内曼正交性Abadie(2005)中新的DID估计量和传统半参数DID估计量之间的差异是它们所基于的得分函数。newscore函数(3.1)-(3.3)的关键特性是,它们相对于有限维妨害参数的方向(或Gateaux)导数为零,而基于(2.1)-(2.3)的分数不具有此特性。该性质是Chernozhukov等人(2018)提出的所谓内曼正交性。内曼正交性使我们能够消除第一阶段估计的一阶偏差,从而使基于这些内曼正交分数的估计量能够实现√N-无约束条件下的一致性。这里提供的内曼正交分数的定义与切尔诺朱科夫等人的定义略有不同。

15
kedemingshi 在职认证  发表于 2022-6-11 08:18:35
(2018)此处定义的NeymanNorthognal得分不是与所有妨害参数正交,而是仅与有限维妨害参数正交。形式上,让θ∈ Θ是关注的低维参数,ρ是有限维妨害参数ρ的真值,η是有限维妨害参数η的真值∈ T假设W是一个随机元素,取概率测度为P的可测空间(W,AW)中的值。确定针对有限维干扰参数Dr的方向(或Gateaux)导数:~T→ R、 式中▄T={η- η: η ∈ T},Dr[η- η]:= r{EP[ψ(W,θ,ρ,η+r(η- η))]}, η ∈ T,对于所有r∈ [0,1)。为方便起见,表示ηEPψ(W,θ,ρ,η)[η- η] :=D[η- η] , η ∈ T此外,让TN T是一个讨厌的实现集,因此η的估计量很可能取该集中的值。定义(内曼正交性)分数ψ在(θ,ρ,η)处服从关于干扰参数实现集TN的内曼正交性条件 T如果方向导数映射Dr[η- η] 存在于所有r∈ [0,1)和η∈ t与在r=0时消失:ηEPψ(W,θ,ρ,η)[η- η] =0,对于所有η∈ 引理1新的得分函数(3.1)-(3.3)服从内曼正交性。嵌入在(3.1)-(3.3)中的这一性质将在以下渐近分布和SBP证明中发挥关键作用,以减少限制性假设。3.2.2渐近分布在下面,我将讨论当数据属于重复结果和重复横截面时,新估计量|θ的理论性质。多水平治疗的结果可以用同样的论点来证明。设K和C为严格正常数,K≥ 2为固定整数,εNbe为接近零的正常数序列。

16
能者818 在职认证  发表于 2022-6-11 08:18:38
用k·kP表示,q某些概率测度P的Lqnorm:k f kP,q:=R | f(w)| qdP(w)1/Q和k f kP,∞:= supw | f(w)|。假设3.1(重复结果的规律性条件)设P为(Y(0),Y(1),D,X)的概率定律。设D=g(X)+U和Y(1)- Y(0)=`(X)+V,EP[U | X]=0,EP[V | X,D=0]=0。定义G1p0:=EP[pψ(W,θ,p,η)]和∑:=EPh(ψ(W,θ,p,η)+G1p0(D- p) 假设以下条件成立:(a)p r(κ≤ g(X)≤ 1.- κ) = 1; (b) k UVkP,4≤ C(c) E类U | X≤ C(d) E类V | X≤ C(e) ∑>0;(f)给定辅助样本Ick,估计量^η1k=^gk,^\'1k遵守以下条件。概率为1- o(1),k^η1k- ηkP,2≤ εN,k^gk- 1/2 kP,∞≤ 1/2 - κ、 andk^gk- gkP,2+k^gk- gkP,2×k^\'1k- `kP,2≤ (εN)。假设3.2(重复横截面的正则条件)设P为(Y,T,D,X)的概率定律。设D=g(X)+U和(T- λ) Y=`(X)+V,Ep[U | X]=0,Ep[V | X,D=0]=0。定义G2p0:=EP[pψ(W,θ,p,λ,η)],G2λ0:=EP[λψ(W,θ,p,λ,η)],和∑:=EPh(ψ(W,θ,p,η)+G2p0(D- p) +G2λ0(T- λ) 假设以下条件成立:(a)P r(κ≤ g(X)≤ 1.- κ) = 1; (b) k UVkP,4≤ C(c) E类U | X≤ C(d) E类V | X≤ C(e) EP公司Y | X≤ C(f) | EP[Y U]|≤ C(g) ∑>0;(h)给定辅助样本Ick,估计量^η2k=^gk,^\'2k遵守以下条件。概率为1- o(1),k^η2k- ηkP,2≤ εN,k^gk- 1/2 kP,∞≤ 1/2 - κ、 andk^gk- gkP,2+k^gk- gkP,2×k^\'2k- `kP,2≤ (εN)。定理1对于重复结果,假设假设假设(2.1)、(2.2)和(3.1)成立。对于重复横截面,假设假设假设(2.1)-(2.3)和(3.2)成立。

17
何人来此 在职认证  发表于 2022-6-11 08:18:40
如果εN=oN-1/4, 然后,新的ATT估计器θ满足√N~θ - θ→ N(0,∑),对于重复结果,∑=∑,对于重复横截面,∑=∑。定理2(方差估计)构造渐近方差的估计为∑=KKXk=1En,kψW、 θ,^pk,^η1k+^G1p(D- ^pk)(重复结果)^∑=KKXk=1En,kψW、 θ,^pk,^λk,^η2k+^G2p(D- ^pk)+^G2λT-^λk(重复横截面),其中En,k[f(W)]=n-1Pi∈Ikf(Wi),^G1p=^G2p=-^θ/^pk和^G2λ是G2λ0的一致估计量。如果定理1的假设成立,则∑=∑+oP(1)和∑=∑+oP(1)。定理1和2的解释是,新的DID估计量θ可以实现√N一致性和渐近正态性,前提是有限维妨害参数的第一阶段估计值收敛速度快于N-1/4. 这种收敛速度可以通过许多ML方法实现。特别是,Van de Geer(2008)和Belloni、Chen、Chernozhukov和Hansen(2012)为Logit Lasso和改进的Lasso估计量提供了详细条件,以满足这种收敛速度。还值得注意的是,即使第一阶段估计值的收敛速度不及N-1/4,由于内曼正交性消除了第一阶段估计量的一阶偏差,因此新估计量|θ仍然比原始估计量有更小的偏差。3.2.3小偏差特性考虑了Abadie(2005)研究的具有有限数量控制变量的传统半参数DID估计量。设bghbe为带宽为h的gw的核估计量→ (2.1)和(2.2)中的0。在核估计的标准假设(下面的假设(3.3))下,可以证明^ghis的逐点偏差为O阶(hm),其中m可以解释为g的最小导数数;点方向的标准偏差为sd(^gh(x))=O(Nhd+2s-1/2).

18
大多数88 在职认证  发表于 2022-6-11 08:18:43
根据Newey&McFadden(1994)的定理8.11,可以证明√基于(2.1)和(2.2)的插件估计器的N-一致性要求√Nhm公司→ 也就是说,核估计的逐点偏差必须比N更快地收敛到零-1/2. 因为逐点标准偏差收敛到零的速度比N慢-1/2,需要不光滑。在这种情况下,不平滑的标准数据驱动宽度选择方法(如交叉验证)无效。为了避免不平稳,根据Newey、Hsieh和Robins(1998、2004)对SBP的分析,兴趣参数的估计值需要比第一阶段非参数估计值的逐点偏差更小。也就是说,SBP要求θ估计量的偏差比hm更快地收敛到零。在下文中,我将证明新的DID估计量θ具有SBP。允许^gkh、^\'1kh、^\'2kh用辅助样本法求(g,`,`)的核估计量。为了方便起见,我假设它们具有相同的带宽h和内核K(u)。假设3.3(Newey&McFadden,1994)1。K(u)是s阶可微的,s阶导数是有界的,K(u)在有界集外为零,RK(u)du=1,存在一个正m,使得对于所有j<m,RK(u)hNj`=1uidu=0.2。定义γ(x)=f(x)E(z | x),其中z∈ (1,D,Y(1)- Y(0)| D=0,(T- λ) Y | D=0),f(x)是x的真实密度。假设γ(x)连续可微于包含x的开集上具有有界导数的阶,其中x是x.3的支撑。有α≥ 4使得E[| z |α]<∞ E[| z |α| x]f(x)是有界的。定理3对于重复结果,假设假设假设(2.1)、(2.2)、(3.1)和(3.3)成立。对于重复横截面,假设假设假设(2.1)-(2.3)、(3.2)和(3.3)成立。假设infx∈Xf(x)6=0,h=h(N),带对数N/√Nhd+2s→ 0

19
mingdashike22 在职认证  发表于 2022-6-11 08:18:46
如果√Nh2m→ 0,那么√N~θ - θ→ N(0,∑),对于重复结果,∑=∑,对于重复横截面,∑=∑。定理3的解释是,新的估计量|θ只需要√Nh2m→ 要实现的0√N-相合性,而传统的半参数DID估计需要√Nhm公司→ 在相同假设下为0。对于Neyman正交性,θ的偏差仅为第一阶段核估计量点态偏差的二阶。θ的偏差是hm的h2min。因此,θ满足SBP。特别地,带宽h使得log N/√Nhd+2s→ 0和√Nh2m→ 0仅在2m>d+2s时存在。在此条件下,通过最小化均方误差(CV)来选择最佳带宽,h=N-1/(d+2s+2m),满足以下条件:√N-稠度。定理4构造渐近方差的估计量为∑=KKXk=1En,kψW、 θ,^pk,^η1kh+^G1p(D- ^pk)(重复结果)^∑=KKXk=1En,kψW、 θ,^pk,^λk,^η2kh+^G2p(D- ^pk)+^G2λT-^λk(重复横截面),其中^G1p=^G2p=-^θ/^pkand^G2λ是G2λ0的一致估计量。如果定理3的假设成立,则∑=∑+oP(1)和∑=∑+oP(1)。4模拟在这一节中,我展示了传统半参数DID估计量和新DID估计量θ在三种不同数据结构中的蒙特卡罗模拟结果:重复结果、重复横截面和多级处理。在第一阶段估计中,我使用ML方法和核估计量。对于ML估计,我生成高维(HD)数据,并通过Logit-Lasso(多级治疗的多重Logit-Lasso)估计属性得分。为了选择Logit Lasso(Multi-Logit Lasso)的惩罚参数,我使用K-fold CV(根据Van de Geer(2008)的建议),K=10。或者,可以使用贝洛尼、切尔诺朱科夫、切特韦里科夫和魏(2018)开发的方法。

20
何人来此 在职认证  发表于 2022-6-11 08:18:50
其他有限维干扰参数由随机森林和500棵回归树估计。对于核估计,使用标准高斯核估计所有有限维干扰参数。附录中的图3-20显示了模拟结果。我发现,当使用ML方法时,传统的半参数DID估计量存在偏差,而新的DID估计量θ可以纠正偏差。对于核估计,由CV选择带宽的传统DID估计是有偏的,而新的DID估计是以真值为中心的。数据生成过程如下所示。4.1重复结果4.1.1 ML估计et N∈ {200500}为样本量和p∈ {100,300}控制变量的维数,Xi~ N(0,Ip×p)。同样,设γ=(1,1/2,1/3,1/4,1/5,0,…,0)∈ 性能得分P(D=1 | X)=1+经验生成的Rp和Dii(-Xγ)(逻辑)。在t=0时,潜在结果生成Yi(0)=Xiβ+ε,在t=1时,Yi(1)=Yi(0)+1+ε,Yi(1)=θ+Yi(1)+ε,其中β=γ+0.5和θ=3,所有误差项均遵循N(0,0.1)。研究人员观察了{Yi(0),Yi(1),Di,Xi},因为i=1。。。,N、 其中,Yi(0)=Yi(0),Yi(1)=Yi(1)(1-Di)+Yi(1)Di。图3-6显示了结果。4.1.2核估计集N∈ {200500}为样本量,Di~ 伯努利(0.5),Xi | Di~ N(Di,1)。在t=0时,潜在结果是生成的Yi(0)=ε,在t=1时,Yi(1)=Yi(0)+Xi+ε,Yi(1)=θ+Yi(1)+ε,其中θ=3,所有误差项遵循N(0,0.1)。研究人员观察{Yi(0),Yi(1),Di,Xi}因为i=1。。。,N、 其中,Yi(0)=Yi(0),Yi(1)=Yi(1)(1-Di)+Yi(1)Di。图7-8显示了结果。4.2重复横截面4.2.1 ML估算et N∈ {200500}为样本量和p∈ {100,300}控制变量的维数,Xi~ N(0.3,Ip×p)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 17:02