楼主: 何人来此
834 11

[经济学] 当代理人是战略性的时,学习个性化治疗 [推广有奖]

11
大多数88 在职认证  发表于 2022-4-20 21:48:01
7599-7609.Rossi,Peter E,Robert E McCulloch,Greg M Allenby,“目标营销中采购历史数据的价值”,marketing Science,1996,15(4),321-340.Snoek,Jasper,Hugo Larochelle,Ryan P Adams,“实用贝叶斯优化”2012,25.Srinivas,Niranjan,Andreas Krause,Sham M Kakade,Matthias Seeger“bandit环境中的高斯过程优化:无遗憾和实验设计”arXiv预印本arXiv:0912.3995,2009.Vazquez-Bare,Gonzalo,Edexports,“arXiv预印本arXiv:1711.02745,2017。Viviano,DavidearXIV:2003.08421,2020。威廉姆斯,克里斯托弗·K和卡尔·爱德华·拉斯穆森机器学习,卷2,麻省理工学院出版社剑桥,马萨诸塞州,2006.定理1的证明当我们有离散协变量时,我们可以将最优治疗分配规则写为约束最大化问题的解maxδxx∈XF(x,δ)δ(x)μ(1,x,δ)+(1-δ(x))μ(0,x,δ)→S.T。0≤δ≤1(5)我们可以把这个问题的拉格朗日公式写成:L(δ),λ,λ)=xx∈xf(x,δ)δ(x)μ(1,x,δ)+(1-δ(x))μ(0,x,δ)-λ(δ-1)+λ(δ)fx,δμW,x,δδδ对应于约束优化问题为,对于每个x∈x:F(x,δ)[τ(x,δ)]+xz∈x f(z,δ)δ(x)(R)(z,δ)+f(z,δ)δ(z)(R)(1,z,δ)δ(x)+(1-δ(z))(R)(0,z,δ)δ(x)-λx+λx=0,和(δ(x)-1)λx=0,δ(x)λx=0,0≤δ(x)≤1,λx,λx≥0。由于我们有了约束条件是线性的,那么KKT条件是任何最优δ*必须成立的必要条件,这就导致了定理陈述。a.2推论1对于每个x∈x的证明,我们有了δc(x)=1或δC(x)=0。首先选择ANX,使得δC(x)=1,因此对δC(x)的约束成立。在这种情况下,我们有τ(x,δc)>0,通过对δc的认识。此外,必须是λx=0,这样两个约束条件都成立。剩下的检验条件是λx≥0和方程3。我们列举了几种情况:1.Sx,δc≥λxsx,δcfx,δτx,δ≥,最优性的必要条件不被违反。2.如果S(x,δc)≤0,且-S(x,δc)<τ(x,δc)f(x,δ),则λx=S(x,δc)+f(x,δ)τ(x,δ)≥,方程3。3.如果s(x,δc)≤0,且-s(x,δc)>τ(x,δc)f(x,δ),则不存在满足方程3和δc不能满足最优性必要条件的λx≥0,而δcxτ(x,δc)<0。我们必须有λx=0,这样两个约束条件都变旧了。其余要检查的条件是λx≥0,方程3.1.sx,δc≤λx-sx,δc-fx,δτx,δ≥,不违反最优性的必要条件。2.如果s(x,δc)≥0,且-s(x,δc)>τ(x,δc)f(x,δ),则λx=-s(x,δc)-f(x,δ)τ(x,δ)≥0满足方程3。3.如果s(x,δc)≥0,且-s(x,δc)<τ(x,δc)f(x,δ),则没有λx≥0满足方程3和δc不能满足最优性的必要条件。xδcx∈xδcsu。如果π(δ)也是凹的。A.3推论2的证明在二元情况下,我们可以写出ef(δ)=f(H,δ)和f(L,δ)=1-f(δ)。在δC,我们有δC(H)=1和δC(L)=0。利用方程4中的公式,我们可以写出(H,δC)=δ(H)hf(δC)μ(1,H,δC)+(1-f(δC))μ(0,L,δC)i。(6)s(L,δC)=δ(L)hf(δC)μ(1,H,δC)+(1-f(δC))μ(0,L,δC)I。(7)θyi·y·,θixiδxδ,θirirθip rxiδch,θp rxiδchθpθ此外,从假设3我们得到p r(Xi(δc)=Hθ)=(δc(H)-δc(L)≥r(θ)),其中对于那些总是报告H的人,我们可以写r(θ)=-∞。

12
kedemingshi 在职认证  发表于 2022-4-20 21:48:03
然后我们可以写μ(1,H,δC)=E[Y(1,θi)Xi(δc)=H]=rp r(Xi(δc)=H,θ)Y(1,θ)d(θ)pr(Xi(δC)=H)=rp(θ)(δC(H)-δC(L)≥r(θ))Y(1,θ)d(θ)f(δc)类似地,我们可以导出μ(1,我,δC)=rp(θ)[1](δC(H)-δC(L)≥R(θ))Y(0,θ)d(θ)1-f(δc)我们还导出了指示函数关于δ(H)和δ(L)的导数,并按cuto-he规则求出我们有,δC)=δ(H)Zp(θ)H(δC(H)-δC(L)≥R(θ))Y(1,θ)+1-(δC(H)-δC(L)≥R(θ))Y(0,θ)id(θ)=zp(θ)(R(θ)=1)[Y(1,θ)-Y(0,θ)]dθ=e[Yi(1)-Yi(0)ri]≥0积分和不等式是从推论2中的策略者的处理条件出发的。类似地,我们可以写(L,δC)=-zp(θ)(R(θ)=1)[Y(1,θ)-Y(0,θ)]dθ≤0sh,δC≥s(L,δC)≤0,因为我们有τ(H,δC)>0和τ(L,δC)>0)<0。我们已经证明了这一点,证明是完全的。b求解例题模型sb1求解例题1我们可以把目标函数写为π(δ)=δ(H)[pr(xi=Hθi=1)pr(θi=1)Y(1,θi=1)+pr(xi=hθi=0)pr(θi=0)Y(1,θi=0)+(1-δ(H))[pr(xi=Hθi=1)pr(θi=1)Y(0,θi=1)+pr(xi=hθi=0)pr(θi=0)Y(0,θi=0)]+δ(L)[pr(xi=Lθi=1)pr(θi=1)Y(1,θi=1)+pr(xi=lθi=0)pr(θi=0)Y(1,θi=0)]+(1-δ(L))[pr(xi=Lθi=1)pr(θi=1)Y(0,θi=1)+pr(xi=lθi=0)pr(θi=0)Y(0,θi=0)]y,θi.y,θiy,θiy,θip rxihθi=1)=1,所以我们只需导出Pr(xi=Hθi=0)=Pr(xi=Hθi=0)=Pr ci≤5(δ(H)-δ(L))=(δ(H)-δ(L))=(δ(H)-δ(L))i+(1-δ(H))(δ(H)-δ(L))+(1-δ(H)+δ(L)+(1-δ(L))+δ(L))(2-δ(H)+δ(L))(2-δ(H)+δ(L))),π(δ)=-0.625(2δ(L)-4δ(L)δ(H)+4δ(H)+4δ(H)+4δ(H)+4δ(H)+4δ(H))+2δ(H)+δ(L))。δ(L)+2δ(H)-定理1中的3δ(H)-8)条件,并注意到基于问题的直觉,最优值具有δ(H)>0和δ(L)<1,所以λL=λH=0。对于δ(L),对于δ(H)我们有:-(δ(L)-δ(H)+1)+λL=0,我们有:2.5(δ(L)-δ(H)+0.75)-λH=0δLδHδHδδδ(L)=0和δ*(H)=0.75。θi=-5)报告xi=land那些θi=1报告xi=L的人(他们都有3.75的ITE)。τL,δτH,δ服从最优规则和最优规则。τ(H,δC)=0.50.753.75+0.250.75(-5)τ(H,δπ)=0.50.5+0.18753.75+0.18750.5+0.1875(-5)b.2解例2如上例,我们可以把目标函数写成π(δ)=δ(H)[pr(xi=Hθi=1)pr(θi=1)Y(1,θi=1)+pr(xi=hθi=0)pr(θi=0)Y(1,θi=0)+(1-δ(H))[pr(xi=Hθi=1)pr(θi=1)Y(0,θi=1)+pr(xi=hθi=0)pr(θi=0)Y(0,θi=0)]+δ(L)[pr(xi=Lθi=1)pr(θi=1)Y(1,θi=1)+pr(xi=lθi=0)pr(θi=0)Y(1,θi=0)]+(1-δ(L))[pr(xi=Lθi=1)pr(θi=1)Y(0,θi=1)+pr(xi=lθi=0)pr(θi=0)Y(0,θi=0)]y,θiy,θiy,θiy,θip rxilθi=0)=1,所以我们只需导出Pr(xi=Hθi=1)=pr-vi≤5(δ(H)-δ(L))=(δ(H)-δ(L))+然后我们可以插入目标,π(δ)=δ(H)H(δ(H)-δ(L))+i+(1-δ(H))H(δ(H)-δ(L))+i+δ(L)(3-(δ(H)-δ(L))+(1-δ(L))H-(δ(H)-δ(L))I,它可以简化为π(δ)=[5δ(L)-10δ(L)δ(H)-6δ(L)+5δ(H)+10δ(H)+40)注意,这个目标是凹的,我们可以使用定理1中的KKT条件来获得全局最优:对于δ(L),我们有:(5δ(L)-5δ(H)-3)+λL=0,对于δ(H),我们有:-5(δ(L)-δ(H)-1)-λH=0δ*Lδ*H值为6.875。计算公式:τ(H,δ)=1+0.5(-4)+0.51+0.5τ(L,δC)=1+0.25(-4)+0.251+0.25

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-11 01:55