|
[61]使用卷积神经网络(CNN)直接逼近最优策略函数,其中代理的目标是最大化100只随机选择股票的投资组合的预期对数回报(即对数最优投资组合)。因此,它类似于KCP投资组合,但其目标函数受到投资组合波动性的惩罚(无交易成本)。他们将此框架称为带强化学习的鲁棒对数最优策略(RLOSRL)5,其主要优点是它不需要复杂的资产回报密度分布估计,而是需要估计的均值和协方差矩阵。对这两种情况的估计是通过模式匹配来实现的,即计算当前价格回报和历史回报之间的皮尔逊相关系数,并选择系数最高的时间段。网络的输入功能是每只股票的开盘价、最高价和最低价及其交易量。使用泊松分布抽样的经验重播来训练网络,以强调最近的经验。他们的样本外回溯测试表明,RLOSRL在测试期间优于所有基准测试。4使用TensorFlow在Python中的EIIE实现在GPL源代码许可下可在[56]获得。5关于使用TensorFlow在Python中的RLOSRL实现,请参见[62]。123.3.2. 近似策略优化直接用具有多个参数的神经网络逼近最优策略π*是困难的,并且通常会遇到次优解,主要是由于不稳定和样本效率低下。此问题的一个解决方法是on PolicyProximate Policy Optimization(PPO)[17]算法。
|