楼主: 可人4
1140 29

[量化金融] 模型不确定性下的自适应鲁棒控制 [推广有奖]

21
大多数88 在职认证  发表于 2022-5-31 22:11:17
通过考虑CRRA效用函数,并借助上述替换,我们将原始递归问题(4.4)简化为(4.5),该问题具有较低的维数,从而显著降低了问题的计算复杂性。在下一节中,我们比较了自适应鲁棒方法、强鲁棒方法、自适应控制方法以及在真实模型已知的情况下考虑无模型不确定性的情况下获得的策略(以及相应的财富过程)。假设真实模型已知,则通过简单求解优化问题(3.2)及其相应的Bellman方程(fWT=1)来计算交易策略-γ、 fWt=infa∈AEh(1+r+a(u*+ σεt+1))1-γfWt+1)i,t∈ T、 (4.6)与(4.5)的推导类似,可以证明鲁棒控制问题的Bellman方程的形式为(fWT=1-γ、 fWt=infa∈Asupu∈ΘEh(1+r+a(u+σεt+1))1-γfWt+1i,t∈ T、 (4.7)注意,Bellman方程(4.6)和(4.7)是递归标量序列,可以高效地进行数值计算,无需状态空间离散化。自适应控制策略是通过在每次迭代t时求解类似于(4.6)的Bellman方程,但通过向后迭代到时间t,其中u*替换为其估计值but。为了解决相应的自适应控制问题,我们首先执行优化阶段。即,我们用u解Bellman方程(4.6)*替换为u,对于所有u∈ Θ。最佳选择器用Дut,t表示∈ T、 接下来,我们做适应阶段。每t∈{0,1,2,…,T-1} ,我们计算逐点估计butofθ*, 并应用确定性等效控制φt=φbutt。有关更多详细信息,请参阅,例如,[KV15]、[CG91]。案例二。

22
何人来此 在职认证  发表于 2022-5-31 22:11:20
假设u和σ都是未知参数,因此在第3节的符号中,我们有θ*= (u*, (σ*)), θ = (u, σ), Θ = [u, u] × [σ, σ]  R×R+,对于某些固定u,u∈ R和σ,σ∈ R+。与案例I类似,我们将MLE取为u*和(σ*), 即自适应鲁棒控制15样本均值和样本方差,适当投影到矩形Θ。【BCC16】中显示,以下递归适用于eut+1=tt+1but+t+1Zt+1,eσt+1=tt+1bσt+t(t+1)(but- Zt+1,(but+1,bσt+1)=P(eut+1,eσt+1),t=1,T- 1,有一些初始猜测bu=c,bσ=c,其中P是类似于asin(4.2)定义的投影。因此,我们将Ct=(Ct,Ct)=(but,bσt),t∈ 我们分别得到r(T,c,z)=Ptt+1c+t+1z,tt+1c+t(t+1)(c- z),c=(c,c)。因此,在这种情况下,我们取(t,v,c,a,z)=v(1+r+az),tt+1c+t+1z,tt+1c+t(t+1)(c- z).[BCC16]中还显示,此处(1- α) -置信区间(u*, (σ*)) 时间t是由Θt=τ(t,but,bσt),τ(t,c)给出的椭圆体=c=(c,c)∈ R: tc(c- u)+t2(c)(c- σ)≤ κ,式中,κ是(1- α) 具有两个自由度的χ分布的分位数。综上所述,通过类比(4.4)-(4.5)导出了自适应鲁棒Bellman方程。即fWT(c)=1-γ和,对于任何t∈ T、 fWt(c)=supa∈Ainf(u,σ)∈τ(t,c)Eh(1+r+a(u+σεt+1))1-γ(4.8)×fWt+1tt+1c+t+1(u+σεt+1),tt+1c+t(t+1)(c- (u+σεt+1))i、 真实模型的Bellman方程和强鲁棒方法的计算类似于(4.6)和(4.7)。4.1数值研究在本节中,我们计算第4节讨论的两种情况下,最优自适应鲁棒控制产生的终端财富。

23
能者818 在职认证  发表于 2022-5-31 22:11:23
此外,对于这两种情况,我们通过假设真实参数u来计算最终财富*和(σ*)已知,然后使用各自的最优控制;我们称之为真正的模型控制规范。我们还计算了通过使用最优自适应控制获得的终端财富。最后,我们使用最优鲁棒控制计算终端财富,结果表明,在案例I中,最优鲁棒控制与最优强鲁棒控制相同。我们对结果进行了分析,并比较了所考虑的四种方法。我们参考[BCC16]来精确定义投影P,但本质上它被定义为集合Θ中的最近点。16 Bielecki、Cialenco、Chen、Cousin、JeanBlanch在这一过程中,我们首先数值求解四种方法各自的Bellman方程。这通常是通过反向归纳来完成的。请注意,Bellman方程中显示的期望运算符只是标准正态分布上的期望。对于所有考虑的控制方法和进行的所有模拟,我们使用10点最优量化器近似标准正态分布(参见,例如,【PP03】)。真实模型控制规范和自适应控制的Bellman方程基本相同,即(4.6),除了如上所述,在自适应控制实施中,我们使用确定性等效方法:在时间t,Bellman方程求解为参数u的时间t点估计*(在情况I中),或参数u的时间t点估计值*和(σ*)(在案例II中)。在经典的鲁棒控制应用中,Bellman方程(4.7)与动态最小-最大对策问题中的通常一样,在案例I和案例II中得到了解决。在自适应鲁棒控制应用中,Bellman方程(4.5)是对重新估值的成本函数fw的递归。

24
可人4 在职认证  发表于 2022-5-31 22:11:26
在案例I中,通过离散与状态变量but相关的状态空间来数值求解该递归方程。在我们的示例中,通过模拟状态过程bu·直到水平时间t的样本路径来完成状态空间的离散。该仿真是在真实模型下进行的。在每个时间t,状态空间网格被定义为该过程在时间t采集的样本值的集合。在案例II中,对状态变量bu和bσt应用了类比程序。案例I。为了实施自适应鲁棒控制方法来解决最优分配问题,我们从构建时间和空间网格开始。网格由若干^u的模拟路径组成。然后,我们在所有网格点处求解方程(4.5),以获得最佳交易策略。如上所述,自适应控制方法的实现包括两个步骤。首先,对于不确定集合Θ=[u,u]中的每个u,我们求解以下Bellman方程:(fWT=-1.-γ、 fWt=infa∈AEhfWt+1(1+r+a(u+σεt+1))1-γi,t∈ T、 很明显,在每个时间T,最优控制由u参数化。记住这一点,每次∈ T、 我们用^uT将u替换为最优控制公式中的控制值。在经典鲁棒控制方法下,投资者的问题变成了∈Asupθ∈ΘEθ[-u(VT)]=-v1-γsupД∈Ainfu∈[u,u]E1.- γT-1Yt=0(1+r+Дt(u+σεt+1))!1.-γ. (4.9)在u=u时,只要1+r+Дt(u+εt+1),就可以得到(4.9)中的内界问题≥ 0 foreach t∈ T、 对于无风险利率r的合理选择和εT+1的量化,将满足该条件。

25
nandehutu2022 在职认证  发表于 2022-5-31 22:11:29
相应地,鲁棒控制问题变得更加突出∈Asupθ∈ΘEθ[-u(VT)]=v1-γ1- γinfД∈AE-T-1Yt=0(1+r+Дt(u+σεt+1))!1.-γ.当然,如果控制方法应用于真正观察到的市场数据,则无法做到这一点,因为市场模型(本质上)未知。一种可能的解决方案是,首先根据Z的过去历史估计模型参数,然后根据该估计模型生成状态过程bu·)的样本路径。自适应鲁棒控制17相应的Bellman方程变为(fWT=-1.-γ、 fWt=infa∈AEhfWt+1(1+r+a(u+σεt+1))1-γi,t∈ T、 (4.10)我们通过向后求解方程(4.10)来计算鲁棒最优策略。可以看出,对于这个分配问题,强鲁棒控制问题(3.11)也是通过Bellman方程(4.10)来解决的。因此,在这种情况下,强鲁棒控制方法和鲁棒控制方法提供了相同的结果。对于数值研究,我们选择参数集为Θ=[-1,1],我们考虑一组时间范围T=0.1,0.2,0.9, 1. 其他参数选择如下:v=100,r=0.02,α=0.1,γ=5,σ=0.3,u*= 0.07,bu=0.1。对于每个T,我们计算应用最优策略生成的终端财富vt,以响应上述四种控制方法:自适应鲁棒、经典鲁棒、自适应和最优控制(假设后一种情况下的真实参数已知)。在每种方法中,我们使用1000条风险资产的模拟路径和300吨重平衡时间步。最后,我们使用可接受性指数损益比(GLR)GLR(V)=(Eθ*[e]-rTVT-五] Eθ*[(e-rTVT-五)-], Eθ*[e]-rTVT- 五] >0,0,否则为95%的风险值,V@R(VT)=inf{v∈ R:Pθ*(VT+v<0)≤ 95%},比较每种方法的性能。图1:投资组合财富均值和标准差的时间序列。

26
能者818 在职认证  发表于 2022-5-31 22:11:34
未知平均值。从图2可以看出,自适应鲁棒方法在所考虑的方法中具有最好的性能。自适应鲁棒控制情况下的GLR高于经典鲁棒控制情况下的GLR,并且在所有终端时间(forT=0.1除外)都高于自适应控制情况下的GLR。此外,即使自适应控制产生最高的平均终端财富(参见图1),自适应控制仍然是风险最大的方法,因为相应的终端财富具有最高的标准偏差和风险值。理由18 Bielecki、Cialenco、Chen、Cousin、JeanBlanch图2:投资组合的时间序列V@R和GLR。未知平均值。可以说,这种现象背后的原因是,自适应控制方法在解决优化问题时使用了点估计器,因此它可能过于激进,对总是存在的估计误差没有任何保护。在所分析的四种方法中,与经典稳健方法相对应的最优投资组合财富最低。这并不奇怪,因为经典鲁棒控制设计用于处理最坏情况。因此,如图3所示,该方法给出的风险集合中的最优持有量始终为0,这意味着遵循经典稳健方法的投资者将所有资金存入银行账户,因此无法从风险资产的价格上涨中获益。图3:最优策略均值的时间序列。未知平均值。自适应鲁棒控制方法旨在在主动自适应鲁棒控制19和保守之间找到适当的平衡。如图1和图2所示,自适应鲁棒比经典鲁棒产生更高的终端财富,其风险比自适应控制低。自适应鲁棒控制方法的鲁棒特性成功地控制了模型不确定性带来的风险。

27
kedemingshi 在职认证  发表于 2022-5-31 22:11:37
此外,该方法的学习特性防止其过于保守。案例二。这里,自适应鲁棒控制方法、经典鲁棒控制方法和自适应控制方法需要考虑真实参数θ的不确定性*= (u*, (σ*)).图4:在α=10%的置信水平下,一条特定路径(but,bσt)的置信区域τ(t,but,bσt)的时间序列。我们选择参数集为Θ=[-1, 1] × [0, 0.5]. 与I的情况一样,我们考虑一组时间范围T=0.1,0.2,0.9、1和300T时间迭代(或重新平衡日期)均匀分布在时间范围T上。在1000多条真实模型的样本路径上,构造离散化状态空间(自适应控制方法所需)并应用计算出的最优策略。其他参数选择如下:v=100,r=0.02,α=0.1,γ=20,u*= 0.09, σ*= 0.30,bu=0.1,bσ=0.4。图4显示了真实模型的特定样本路径的不确定性集的演变。我们可以证明真实参数的不确定性(u*, σ*) 随着时间的推移,可以观察到realizedexcess返回值,从而快速减小大小。此外,我们可以注意到,对于α=10%,椭球区域包含几乎所有时间步的真参数。与案例I一样,我们通过模拟真实模型生成的路径,比较了自适应鲁棒控制、自适应控制、鲁棒控制和最优控制的性能。图5显示了最优投资组合财富值的平均值和标准差随时间的变化。它还显示了意外损失95%VaR和损益比(GLR)的时间演变。在这2维情况下,结论与前一个情况I一致,其中仅假设已知u。自适应鲁棒控制策略在GLR方面优于自适应控制和鲁棒控制策略。

28
可人4 在职认证  发表于 2022-5-31 22:11:40
自适应控制策略给出了最高的投资组合财富平均值,但代价是相对较高的标准差。意外损失95%VaR系列也不利于自适应控制方法。最后,我们要提到的是,在这种情况下,风险资产的最优持有表现出与案例I.20类似的行为。Bielecki、Cialenco、Chen、Cousin、JeanBlanch图5:投资组合财富均值和标准差的时间序列。未知均值和方差。在Igor Cialenco访问由国家科学基金会资助的纯数学和应用数学研究所(IPAM)时,Spart对这项研究表示感谢。Monique Jeanblanc的研究得到了法国银行业联合会“Chaire Markets in transition”和ILB Labex ANR 11-LABX-0019的支持。参考文献【AHS03】E.W.Anderson、L.P.Hansen和T.J.Sargent。模型规格、稳健性、风险价格和模型检测的四个半组。《欧洲经济协会杂志》,1(1):68–123,2003年。【BB95】T.Ba,sar和P.Bernhard。H∞-最优控制和相关的极大极小设计问题。系统与控制:基础与应用。Birkhauser Boston,Inc.,马萨诸塞州波士顿,第二版,1995年。动态游戏方法。【BCC16】T.R.Bielecki、I.Cilenco和T.Chen。信任区域的递归构造。2016年【BCP16】E.Bayraktar、A.Cosso和H.Pham。鲁棒反馈切换控制:动态编程和粘度解决方案。《暹罗控制与优化杂志》,54(5):2594–26282016年。M.W.Brandt、A.Goyal、P.Santa Clara和J.R.Stroud。一种动态投资组合选择的模拟方法,用于学习收益可预测性。《金融研究评论》,18(3):8312005年。【BMS07】G.Bordigoni、A.Matoussi和M.Schweizer。Arobast效用最大化问题的随机控制方法。

29
能者818 在职认证  发表于 2022-5-31 22:11:43
在随机分析与应用中,Abel Symp.第2卷。,第125–151页。柏林斯普林格,2007年。自适应鲁棒控制21图6:投资组合的时间序列V@R和GLR。未知均值和方差。[BS78]D.P.Bertsekas和S.Shreve。随机最优控制:离散时间情况。学术出版社,1978年。L.F.Bertuccelli、A.Wu和J.P.How。鲁棒自适应马尔可夫决策过程:具有模型不确定性的规划。IEEE控制系统。Mag.,32(5):96–109,2012年。[CG91]H.F.Chen和L.Guo。识别和随机自适应控制。系统与控制:基础与应用。Birkhauser Boston,Inc.,马萨诸塞州波士顿,1991年。I.Gilboa和D.Schmeidler。具有非唯一先验的Maxmin期望效用。J、 数学。经济体。,18(2):141–153, 1989.[HS08]P.L.Hansen和T.J.Sargent。稳健性。普林斯顿大学出版社,2008年。L.P.Hansen、T.J.Sargent、G.Turmuhambetova和N.Williams。鲁棒控制和模型误判。J.经济。《理论》,128(1):45–902006年。P.Ioannou和J.Sun。鲁棒自适应控制。多佛电气工程书籍,2012年。G.N.Iyengar。鲁棒动态规划。运筹学数学,30(2):257–280,2005年。【KOZ14】S.Kallblad、J.Ob l\'oj和T.Zariphopoulou。模型不确定性下的时间一致性投资:稳健远期标准。即将出版的《金融与随机》,2014年。【KV15】P.R.Kumar和P.Varaiya。随机系统:估计、识别和自适应控制,应用数学经典著作第75卷。暹罗,2015年。Andrew E.B.Lim、J.George Shanthikumar和Z.J.Max Shen。模型不确定性、鲁棒优化和学习。运筹学教程,第66-94页。通知,2006年。【MMR06】F.Maccheroni、M.Marinacci和A.Rustichini。歧义厌恶、鲁棒性和偏好的变化表示。

30
mingdashike22 在职认证  发表于 2022-5-31 22:11:46
《计量经济学》,74(6):1447–14981006年11月22日。Bielecki,Cialenco,Chen,Cousin,Jeanblanc【PP03】G.Pag\'es和J.Printems。数值的最佳二次量化:Gaussiancase。蒙特卡罗方法与应用,9:135–166,2003年。【Sir14】Sirbu先生。关于模型不确定性随机控制问题强公式的注记。《概率中的电子通信》,2014年19月。【Ski03】C.Skiadas。鲁棒控制和递归效用。财务Stoch。,7(4):475–489, 2003.

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-31 04:14