|
然后,通过贝尔曼最优方程3中作为回报的投资组合收益的顺序最大化来解决该问题。如果MDP是完全确定的(或状态转移概率已知),并且如果还知道一个报酬函数,则可以使用动态规划(DP)的递归向后值迭代法(recursivebackward value iteration method)求解Bellman最优性方程。另一方面,如果系统动力学未知,需要从样本中计算最优策略,则可以使用无模型强化学习(RL)来解决问题。在投资组合优化中,既不知道未来的投资回报,也不知道状态转移概率。因此,MDP是不确定的,可以使用它来解决问题。对于无模型RL方法,不需要任何投资回报模型,因为Bellman最优方程可以在不了解任何基本动力学的情况下近似求解,但仅依赖于样本数据。让我们考虑投资组合优化问题的标准RL设置。在每个时间步骤t,代理观察当前状态st∈ S并在选择操作∈ aa根据其政策π。代理随后观察下一个状态st+1并接收标量奖励rt=r(st,at)。Rt公司=∑k=t∞γk-tr(sk,ak)(17)是从时间步t开始的总累计回报,带有贴现因子γ∈ (0,1).对于投资组合优化问题,Rt通常被一些初始财富W0的未贴现累积财富Wt替换:Wt=W0∏k=1t(1+rk)。(18) 状态值Vπ(s)=E[Rt | st=s;π]是状态中下列策略π的预期回报。以类似的方式,状态动作值或Q值Qπ(s,a)=E[Rt | st=s,a;π]是在状态s中选择动作a并遵循策略π的预期返回。
|