|
假设u和σ都是未知参数,因此在第3节的符号中,我们有θ*= (u*, (σ*)), θ = (u, σ), Θ = [u, u] × [σ, σ] R×R+,对于某些固定u,u∈ R和σ,σ∈ R+。与案例I类似,我们将MLE取为u*和(σ*), 即自适应鲁棒控制15样本均值和样本方差,适当投影到矩形Θ。【BCC16】中显示,以下递归适用于eut+1=tt+1but+t+1Zt+1,eσt+1=tt+1bσt+t(t+1)(but- Zt+1,(but+1,bσt+1)=P(eut+1,eσt+1),t=1,T- 1,有一些初始猜测bu=c,bσ=c,其中P是类似于asin(4.2)定义的投影。因此,我们将Ct=(Ct,Ct)=(but,bσt),t∈ 我们分别得到r(T,c,z)=Ptt+1c+t+1z,tt+1c+t(t+1)(c- z),c=(c,c)。因此,在这种情况下,我们取(t,v,c,a,z)=v(1+r+az),tt+1c+t+1z,tt+1c+t(t+1)(c- z).[BCC16]中还显示,此处(1- α) -置信区间(u*, (σ*)) 时间t是由Θt=τ(t,but,bσt),τ(t,c)给出的椭圆体=c=(c,c)∈ R: tc(c- u)+t2(c)(c- σ)≤ κ,式中,κ是(1- α) 具有两个自由度的χ分布的分位数。综上所述,通过类比(4.4)-(4.5)导出了自适应鲁棒Bellman方程。即fWT(c)=1-γ和,对于任何t∈ T、 fWt(c)=supa∈Ainf(u,σ)∈τ(t,c)Eh(1+r+a(u+σεt+1))1-γ(4.8)×fWt+1tt+1c+t+1(u+σεt+1),tt+1c+t(t+1)(c- (u+σεt+1))i、 真实模型的Bellman方程和强鲁棒方法的计算类似于(4.6)和(4.7)。4.1数值研究在本节中,我们计算第4节讨论的两种情况下,最优自适应鲁棒控制产生的终端财富。
|