|
该成本是两个最优值函数之间的差异,根据最优探索策略的熵值调整额外的贡献。将定理2设为e,我们得到如下结果。定理4假设定理2的陈述(a)(或等价地,(b))成立。然后,MV问题的勘探成本为isCu*,π*(0,x;w)=λT,x∈ R、 w∈ R、 (31)证明。设{π*t、 t型∈ [0,T]}是由反馈控制π生成的开环控制*在语句(a)中给出,关于初始状态xat t=0,即π*t(u)=Nu-ρσ(X*t型- w) ,λ2σeρ(T-t)其中{X*t、 t型∈ [0,T]}是探索性MV问题的相应最优财富过程,从状态xat T=0开始,当π*已应用。然后,我们很容易推断出Zrπ*t(u)lnπ*t(u)du=-自然对数πeλσeρ(T-t).现在,所需结果紧跟在(a)中V(·)和(b)中Vcl(·)的表达式之后。勘探成本仅取决于两个“特定代理人”参数,即勘探权重λ>0和投资期限T>0。请注意,后者也是勘探层位。我们的结果是直观的,即勘探成本随着勘探权重和勘探层位的增加而增加。实际上,对于λ和T这两个属性,相关性都是线性的。值得注意的是,成本与拉格朗日乘数无关。这表明,当代理更具攻击性(或风险寻求)时,勘探成本不会增加——由预期目标z或等效的拉格朗日乘数W反映。4 RL算法设计在前两部分奠定了理论基础之后,我们现在设计了一个RL算法来学习熵正则化MVP问题的解,并输出可实施的投资组合分配策略,而不需要假设任何关于底层参数的知识。
|