|
这也有利于实时交易,因为交易决策可以在低延迟的情况下执行,并且培训可以在市场收盘后推迟。2.5.2完整的在线学习算法我们对原始DRQN算法采用上述更新方案,并提出一个完整的在线学习算法,我们将在下一节中进行评估。我们放弃了常见的步行优化过程,该过程涉及将数据集切片为连续的训练集和测试集。由于以这种方式构建的每个训练集都有较大的重叠,因此在我们的早期实验中观察到了强烈的过拟合。因此,我们以一种最类似实时交易的纯在线方式优化我们的网络。Weterm得出的算法是金融深度递归Q网络(Financial DRQN)。算法1财务DRQN算法1:初始化T∈ N、 递归Q-网络Qθ,目标网络Qθ-带θ-= θ、 数据集D和环境E,步骤=12:从数据集D3模拟环境E:从环境E4观察初始状态s:对于每个步骤do5:步骤← 步骤+16:选择贪婪行动w.r.t.Qθ(s,a)并应用于环境E7:从环境E8接收奖励r和下一状态SF:增强行动以形成t=(s,a,r,s),并将t存储到内存D9:如果D已填充且步骤mod t=0,则10:从D11中采样长度t的序列:使用等式(4)和(5)训练网络Qθ12:结束if13:软更新目标网络θ-← (1 - τ)θ-+ τθ14:end for在实践中,我们发现实现一个简单的开放式健身房(如environmentBrockman et al.(2016))非常有用。因为在RL范式下,大多数开源回测引擎都很难使用。3.
|