楼主: mingdashike22
1171 21

[量化金融] 基于循环强化学习和LSTM的Agent激励交易 [推广有奖]

11
大多数88 在职认证  发表于 2022-6-1 04:28:20
存储单元由四个主要元素组成:输入门、具有自回归连接的神经元、目标门和输出门。自循环连接确保存储单元的状态在一个时间步到另一个时间步之间保持不变。输入门允许输入信号改变或阻止存储单元的状态。输出门可以允许记忆细胞的状态影响或阻止其他神经元。最后,遗忘门可以调节记忆细胞的自我循环连接,允许细胞根据需要记住或忘记其先前的状态。我们可能想知道,当LSTM的目的是将遥远的事件链接到最终输出时,为什么它有一个遗忘门。例如,当我们分析一个时间序列并将其结束时,您可能没有理由相信下一个时间实例与前一个时间实例有任何关系,因此在下一个实例之前,应该将内存单元设置为零。在图1中,我们可以看到门是如何工作的,直线表示关闭的门,开放的圆表示打开的门。隐藏层上水平排列的线和圆就是遗忘之门。记住这个概念,让我们浏览一下数学表达式。我们将尽可能简单地使用这些符号来解释。更多阅读和详细讨论请参见[20]。请注意,如果与第二节有任何重叠,则本节中使用的符号与第二节中使用的符号不同。这里,x是时间t的输入向量,hts是隐藏层向量,W是输入权重矩阵,U是当前权重矩阵,b是偏移向量。功能图。

12
mingdashike22 在职认证  发表于 2022-6-1 04:28:23
1: LSTM递归神经网络的示例σ、m和n是逐点非线性激活函数。逻辑乙状结肠(1+e-x) 用于门或σ的激活函数,双曲正切tanh用作块输入和块输出激活函数(m,n)。最后,两个向量的逐点乘法表示为我们可以编写如下表达式:块输入:yt=m(Wyxt+Uyht-1+by)(14)输入门:it=σ(Wixt+Uiht-1+bi)(15)忘记闸门:ft=σ(Wfxt+Ufht-1+bf)(16)电池内部状态:ct=it yt+英尺 计算机断层扫描-1(17)输出门:ot=σ(Woxt+Uoht-1+bo)(18)块输出:zt=ot n(ct)(19)人们可以探索LSTM的其他变体,例如带窥视孔的LSTM【21】和最近的AssociatelSTM【22】。我们选择了带遗忘门的LSTM,因为它是一种简单的常用LSTM配置,符合我们的目的。LSTM递归神经网络包含各种非线性隐含层,这使得它们非常有表现力,可以学习输入和输出之间的复杂关系。然而,这种复杂的关系将是采样噪声的结果,因此它们将存在于训练集中,而不存在于实际数据中,即使它是从相同的分布中提取的。如【23】所述,这会导致过度匹配。其中一种称为辍学的正则化技术就是解决这个问题。它将防止过度拟合,并提供将许多不同的神经网络架构有效结合的途径。有趣的是,除非正确应用,否则辍学者将无法很好地使用RNN和LSTM。[24]向我们展示了如何正确地将辍学应用于LSTM。其主要思想是只对非递归层应用dropout操作符。图2:。显示仅适用于短划线箭头而不适用于实心箭头的下拉列表。从数学上来说,假设(17)中的方程在我们的深层LSTM中有总共个层。块输出变为ztL。

13
何人来此 在职认证  发表于 2022-6-1 04:28:26
ztlis在时间步t中的层l中的隐藏状态。确定性状态转换是一个函数RNN:ztl-1,zt-1升→ ztlwhere D是一个dropout操作,它将参数的随机子集设置为零,D(ztl-1). 辍学的输入通常介于0和1之间。其中,我们定义了输入线性变换的单位下降百分比。图2:在LSTMT上应用辍学者的示例,以利用递归神经网络、合并LSTM和辍学者的优势来应对递归神经网络的挑战。这是我们的第二步,旨在创建能够达到类似性能和通用性水平的艺术代理。在本节中,我们创建了特征学习框架(FeatureLearningFramework),以构建信息性特征表示,供代理使用。在下一节中,我们将回到强化学习,以了解基于我们的目标求解权重的方法。四、 回顾金融世界中的梯度上升、进化策略和其他梯度搜索,能够直观地解释和解释我们部署的假设和模型,与模型本身的有效性和复杂性同等重要。我们在第二节中详细讨论了梯度上升,以确定最佳夏普比。在本节中,我们将探讨更接近“黑箱”优化的其他方法。这些方法背后的动机是,许多现实世界的优化问题太复杂,无法直接建模。在过去的三十年中,该领域已经开发并应用了许多算法,在许多情况下,这些算法为极端复杂的任务提供了接近最优的解决方案。启发式方法,是指任何采用实际方法解决问题、学习或发现问题的方法,这些方法不保证是最优或完美的,但足以实现眼前目标。

14
nandehutu2022 在职认证  发表于 2022-6-1 04:28:29
当无法或不可行找到最佳解决方案时,可以使用启发式方法加快找到满意解决方案的过程。有时,要获得全局最优解几乎不可行,需要在黑盒算法中进行大量的启发式,因此,这可能会导致有时很难解释的方法可以立即看到高性能。虽然在本文中,我们将基于代理的交易局限于单个资产,但我们研究了这些方法,为以后在portfoliooptimization中的扩展做准备。黑盒优化问题已经发展到各种各样的方法。1965年提出的第一类方法是尼尔德·米德[25],其灵感来自经典的优化方法,如simplexmethods。前面提到的更多启发式方法受到了自然进化的启发。这是一类随机优化和适应技术,从20世纪50年代初开始发展。包括一类广泛的遗传算法-进化、分布估计算法、粒子群优化算法【26】、交叉熵方法【27】、协方差矩阵自适应进化策略CMA-ES【28】,许多人认为CMA-ES是进化计算、自然解决策略和进化的“行业标准”【29】。在优化中,一个问题通常由一组n个参数x。。。X和一个目标函数f,在进化算法的上下文中也称为适应度函数。优化过程的目标是确定一组n个变量w。。。Wn使目标函数优化。在不丧失一般性的情况下,只考虑最小化任务就足够了,因为最大化f相当于最小化-f

15
kedemingshi 在职认证  发表于 2022-6-1 04:28:32
这在Python、Matlab或R中的各种优化库的实际实现中非常有用。我们上面提到的每个进化算法都是用不同的方法设计的。尽管存在差异,所有进化算法都是基于群体的启发式搜索过程,包含随机变化和选择。在每次迭代i(也称为一代)中,进化算法通常从u个父代生成λ个子代。每个子代都是通过复制一个父代并向父代参数x添加一个变异向量z来生成的。在进化规划和进化策略中,z的所有分量都是典型的高斯分布,具有平均零和标准偏差。标准偏差也称为步长。通过评估目标函数,evolutionaryalgorithms为每个子代分配一个适应度值,并选择子代作为下一个迭代(世代)的父代。进化规划和进化策略的一个非常重要的特征是它们能够自适应步长。对于进化规划和进化策略来说,通过将迭代i处的标准偏差作为附加参数来执行自适应是非常常见的。以CMA-ES为顶点的进化策略被设计用于处理高维连续值域。多年来,该算法框架得到了广泛的发展,包括搜索参数的自适应,以及通过使用全协方差矩阵表示相关变异。这使得框架能够通过利用协方差来捕获相互关联的依赖关系,同时为下一代变异个体。虽然进化策略被证明是黑箱优化的一种有效方法,但它们的特殊过程本质上仍然是启发式的。

16
kedemingshi 在职认证  发表于 2022-6-1 04:28:35
许多文献已经证明,要彻底分析过程的实际动态,结果是很困难的[11][30]自然进化策略(NE)[31]是受进化策略启发的黑箱优化算法,它不是保持搜索点的数量,而是迭代更新搜索分布。这些类型的方法使用自然梯度,以更高的预期能力更新搜索分布。与CMA-ES一样,它们也可以被纳入进化策略的框架中。自然解策略已成功应用于黑箱优化[28],以及递归神经网络中递归权重的训练[29]。我们对使用Evolino训练复发性神经网络特别感兴趣。Evolino计算非线性和隐藏节点的权重,同时计算从隐藏状态到输出的最佳线性映射。在未来的工作中,我们将比较portfoliooptimization优化中的线性矩阵不等式[8][32]。我们快速回顾了优化方法,对于我们来说,最初使用梯度上升(如第I节所述)是最佳的。我们更容易解释和实现基于agent的强化学习模型。然而,使用进化策略实现更复杂和多资产的优化是可行的。五、 实证结果本节展示了我们试图解决的三个问题的实证结果。一个是等式(3)中有偏差的termb将如何影响交易频率、交易成本和利润。虽然对冲基金可能会采用频繁交易策略,但许多被动基金、另类投资管理基金和个人投资者可能需要较少的交易频率。我们的机器人交易员很容易做到这一点。

17
nandehutu2022 在职认证  发表于 2022-6-1 04:28:38
二是递归神经网络与LSTM递归神经网络之间的性能。最后但并非最不重要的一点是,我们将不仅尝试最大化下行偏差率,还将在时间序列持续下降的情况下输入信号和波动信号,以尝试保护投资的下行。我们还将比较使用下行偏差率和夏普比率的性能。这些外汇模拟证明了循环强化学习算法在真实金融价格序列中发现交叉结构的能力。我们的目标是在几乎不需要手动参数调整的情况下找到最佳解决方案,并可以优化任何交易期的性能。为了进行实验,它是用Python实现的,带有Pandas、Numpy、Sklearn、Keras和Tensor flow库。我们从美元/英镑价格系列中提取2000个数据点,我们使用2017年6月1日至2017年3月2日的1000个30分钟间隔价格点作为训练集,再次使用2017年3月2日至2017年6月3日的1000个30分钟间隔价格点作为测试集。回顾方程(4),sFt的第一项-1是t-1期间投资决策的回报。例如,如果S=10股,交易者做出的决定是购买允许的最大值的一半,每股增加rt=2。然后,这个期限将是10,这是忽略t期间发生的交易成本的总回报率。F期限可以是长的、短的或中性的,也可以用数学表示为[-1,1]。我们在本实验中使用的所选机器人交易员将使用LSTM以及具有55%辍学率和连续200个预测数据点的重复强化学习。我们将在第二个问题中进一步讨论递归强化学习与递归强化学习的区别。我们将有偏项一设为b=1,一设为b=5。

18
mingdashike22 在职认证  发表于 2022-6-1 04:28:41
比较有偏项b=5和b=1,我们可以很快注意到,b=5将导致更少的频繁交易,而更少的交易成本将导致测试期间更高的回报。图3:。显示了夏普比率是如何通过训练演变的,将历次设置为1000次。我们的各种测试结果表明,优化的夏普比随着Epochtimes的增加而增加。直觉上,虽然很容易认为设置大纪元时间来增加最终夏普比可以提供增量性能,但我们的经验结果表明,在大纪元时间的情况下,测试集的性能或总性能不会显著增加。图3:通过图4的顶部面板进行训练的夏普比率。显示了2017年6月1日至2017年3月2日期间的培训套餐价格(USDGBP)。第二个面板显示交易系统在训练中产生的跨越信号,第三个面板显示基于训练的体重的得失。随着我们优化权重,在整个训练期间,训练的优势将逐渐增加。图4:培训b=1-1类似设置,图5的顶部面板显示了2017年2月3日至2017年3月6日期间USDGBP的测试集价格。第二个面板显示交易系统产生的交易信号,底部面板显示基于初始权重与训练权重的收益和损失。b=1的优化权重的性能实际上比初始设置的权重差。图6:。和7。是图4的重复培训和测试。和5。,分别将偏置项设置为5。如图5和图7所示,b设置为1时,平均每笔交易交易时间为6小时,而b设置为5时,平均每笔交易时间为70小时,这显著降低了交易成本,因此实现了更好的性能。图5:预测b=1-LSTMFig。6: 培训b=5-LSTMFig。

19
大多数88 在职认证  发表于 2022-6-1 04:28:44
7: 预测b=5-我们想要解决的第二个问题是我们的LSTM循环强化学习tradervs循环强化学习Traders之间的性能。比较图8和图7,我们可以看到,我们的第一个交易市场交易员在高端总利润方面表现更好。图8:预测b=5,通常是测试下行偏离率的测试。图9:。显示DDR培训,如图10所示。显示性能,可与图7进行比较。图9:通过培训的DDR图。10: DDR b=5-我们可以观察到,受过最大下行偏离率训练的机器人交易者比夏普比率最大化的交易者损失或提款更少。我们发现,机器人交易者成功地发现了有利的策略,他们所学的行为表现出风险规避特征,在动荡的市场中获益匪浅。虽然我们的目标是选择一个波动性低和波动性高的测试期,但在一个每天24小时运行的实时交易系统中,在非高峰或低流动性交易期进行交易时,可能会受到额外的处罚。对该交易系统的准确测试需要与经纪人进行实时交易,或直接通过银行间FXmarket进行买卖价格的实时交易,以验证实时交易价格和可行性。六、 结论与人类一样,我们的代理人会自己学习,以实现成功的策略,从而获得最大的长期回报。这种通过尝试和错误来学习的范式,完全是通过奖惩来实现的,被称为强化学习(reinforcementlearning,RL)。同样像人类一样,我们的代理直接从原始输入(如计算机视觉)构建和学习自己的知识,而无需任何手动或手动工程特性或领域启发式。这是通过深入学习神经网络实现的。

20
可人4 在职认证  发表于 2022-6-1 04:28:47
DeepMind率先将这些方法结合起来,即深度强化学习,创建了第一批在Alpha Go中实现人类水平绩效的人工智能。有许多领域可以探索深度学习和LSTM递归神经网络,这些领域包括基于预测的模型、基于分类的模型和无监督学习。我们的目标是让人工智能与下行保护进行权衡,并尽可能少地调整参数。通过深入学习和RecurrentNetwork,我们可以探索补充其他功能,如交易量或利率、信用违约掉期利差,以及提供多资产交易。实证结果显示,作为一个成功的USDGBP交易代理,使用外汇数据和偏态收益分布进行控制实验。我们还表明,我们可以通过下偏差率和反馈信号实现下侧保护。这将有助于投资者在市场情绪悲观时进行风险管理。对于被动投资者,我们的结果表明,长周期策略是可行的,可以与股票或其他资产选择策略相结合。这里的机会提供了一种强大的真正的机器人阅读技术,其中尽可能少的人干预。尽管有一些参数需要仔细选择,但未来的工作包括使用我们在整个讨论中提到的可能的多资产策略和实时交易来自动化这些类型的依赖关系。致谢作者要感谢台湾台南国立成昆大学统计系的梁清浩教授,感谢他对这份手稿的不懈指导和有益的评论。参考文献[1]R.Sutton,A.Barto,《强化学习:导论》,第二版。马萨诸塞州剑桥,麻省理工学院出版社,2012年[2]R.Sutton,A.Barto,R。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 11:36