楼主: mingdashike22
1173 21

[量化金融] 基于循环强化学习和LSTM的Agent激励交易 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
73.8816
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24862 点
帖子
4109
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
mingdashike22 在职认证  发表于 2022-6-1 04:27:47 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Agent Inspired Trading Using Recurrent Reinforcement Learning and LSTM
  Neural Networks》
---
作者:
David W. Lu
---
最新提交年份:
2017
---
英文摘要:
  With the breakthrough of computational power and deep neural networks, many areas that we haven\'t explore with various techniques that was researched rigorously in past is feasible. In this paper, we will walk through possible concepts to achieve robo-like trading or advising. In order to accomplish similar level of performance and generality, like a human trader, our agents learn for themselves to create successful strategies that lead to the human-level long-term rewards. The learning model is implemented in Long Short Term Memory (LSTM) recurrent structures with Reinforcement Learning or Evolution Strategies acting as agents The robustness and feasibility of the system is verified on GBPUSD trading.
---
中文摘要:
随着计算能力和深度神经网络的突破,许多我们过去没有用各种技术进行严格研究的领域是可行的。在本文中,我们将探讨实现机器人式交易或咨询的可能概念。为了实现类似水平的绩效和通用性,就像人类交易员一样,我们的代理人会自己学习创建成功的策略,从而获得人类水平的长期回报。该学习模型在长-短期记忆(LSTM)循环结构中实现,强化学习或进化策略作为代理。该系统的鲁棒性和可行性在英镑兑美元交易中得到验证。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--

---
PDF下载:
--> Agent_Inspired_Trading_Using_Recurrent_Reinforcement_Learning_and_LSTM_Neural_Networks.pdf (3.95 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:agent STM Age Breakthrough Quantitative

沙发
何人来此 在职认证  发表于 2022-6-1 04:27:53
使用RecurrentReinforcement学习和LSTM神经网络的代理启发交易参见W.LuEmail:davie。wlu@gmail.comAbstract-随着计算能力和深度神经网络的突破,许多我们过去没有用各种严格研究的技术来探索的领域是可行的。在本文中,我们将探讨实现机器人式交易或咨询的可能概念。为了实现类似水平的绩效和通用性,就像人类交易员一样,我们的代理人会自己学习创建成功的策略,从而获得人类水平的长期回报。该学习模型在长-短期记忆(LSTM)循环结构中实施,并以强化学习或进化策略作为代理。该系统的稳健性和可行性在英镑/美元交易中得到验证。关键词深度学习,长-短期记忆(LSTM),神经网络融资,循环强化学习,进化策略,机器人顾问,机器人交易。引言许多机器学习或人工智能技术可以追溯到20世纪50年代。从模式识别和计算学习理论的研究发展而来,研究人员探索和研究能够对数据进行学习和预测的算法的构造。通过这些预测,研究人员发现了一个学习系统的想法,该系统可以决定一些事情,调整其行为,以最大限度地利用其环境中的信号。这是一个“享乐主义”学习系统的创造。[1] 这种学习系统的思想可以看作是自适应最优控制,现在我们称之为强化学习[2]。

藤椅
kedemingshi 在职认证  发表于 2022-6-1 04:27:56
为了达到与人类类似的性能和通用性水平,我们需要直接从原始输入(如视觉)构建和学习知识,而不需要任何手动工程特性,这可以通过深入学习神经网络来实现。将二者结合起来,一些人简单地将其称为深度强化学习,这可以创建一个我们尽可能理智地称之为真正的“艺术智能”的艺术机构。在本文中,我们将重点讨论直接强化或持续强化学习,以引用不必学习值函数即可导出apolicy的算法。一些研究人员将马尔可夫决策过程框架中的策略梯度算法称为直接强化,通常指的是任何不需要学习值函数的强化学习算法。在此,我们将重点关注反复强化学习。动态规划(Dynamic programming)[3]、TD学习(TD Learning)[4]或Q学习(Q-Learning)[5]等方法一直是大多数现代研究的焦点。这些方法在完成本文时,作者为美国银行美林(Bank of America Merrill Lynch)工作。本文中表达的观点和意见是作者的观点和意见,并不一定反映美国银行美林试图学习价值函数的观点或立场。演员-评论家方法(Actor-Critical methods)[6],是直接强化方法和值函数方法之间的中间方法,因为“评论家”学习一个值函数,然后用于更新“演员”的参数。为什么我们选择关注反复强化学习?虽然近几年来在理论上取得了很大的进展,但在金融领域却鲜有公开的应用。

板凳
kedemingshi 在职认证  发表于 2022-6-1 04:27:59
我们作为初创企业、量化对冲基金、客户驱动的投资服务、财富管理公司,以及最近的机器人顾问,一直致力于解决财务决策问题,以便自己进行交易。在强化学习社区中,学习策略与学习价值函数的关系实际上受到了很大的关注。在过去三十年中,前面描述的价值函数方法一直主导着该领域。这种方法在许多应用程序中都很有效,比如alpha Go,训练直升机等等。然而,价值函数方法受到了一些限制。Q学习是在行动空间和离散状态的背景下进行的。在许多情况下,当Q-学习扩展到函数逼近器时,这将遭受“维数灾难”,研究人员已经表明,它无法使用简单的马尔可夫决策过程收敛。脆性意味着价值函数的微小变化可能会导致政策的巨大变化。在交易信号世界中,数据可能存在大量噪声和数据集中的非平稳性,这可能会给值函数方法带来严重问题。循环强化学习可以提供即时反馈以优化策略,能够自然生成真实的值或权重,而无需借助值函数方法所需的离散化。还有其他投资组合优化技术,如进化策略和线性矩阵不等式,它们依赖于预测卵巢矩阵和优化。对于强化学习中的所有优化问题,我们都需要一个目标,并且可以根据风险或回报来制定这样的目标。

报纸
mingdashike22 在职认证  发表于 2022-6-1 04:28:02
穆迪(Moody)等人[7]表明,如何计算夏普比率和下行偏差比率的差分形式,以实现有效的在线学习和循环强化学习,鲁(Lu)[8]表明,使用线性矩阵方程可以击败无风险率,Deng等人[9]已经表明,最大回报率可以作为递归强化学习的目标,也可以使用深度学习转换来初始化特征。为了扩展递归结构,我们将在本文中进一步讨论如何利用时间反向传播方法将递归神经网络展开为一系列无反馈的时间相关堆栈。正如[9]所讨论的,梯度消失问题在这些结构中不可避免地存在。这是因为未展开的神经网络在特征学习和时间扩展部分上抑制了极其深层的结构。我们引入长短时记忆(LSTM)来处理这种缺陷。我们将讨论LSTM的特点以及测试的思想和技术,如辍学[10]。这一策略为预测最终目标和提高学习效率提供了机会。反复强化学习者需要通过梯度上升来优化目标。在本文中,我们还将探索进化策略[11]和纳尔德米德方法[12]中的文献,以搜索梯度或所谓的直接搜索或无导数方法。最后,交易系统将在标普500、欧元兑美元和商品期货市场之间进行测试。本部分的其余部分组织如下。第二节,我们将介绍如何构建交易代理,第三节将介绍如何在plainrecurrent和LSTM中构建递归层。此外,辍学如何影响培训并减少梯度消失问题。

地板
能者818 在职认证  发表于 2022-6-1 04:28:05
第四节,我们将讨论梯度上升、进化策略和Helderhead方法。第五节,我们将详细介绍第二节至第四节中列出的测试结果和方法比较。第二节总结了他的论文,并对未来的方向提出了想法。二、重复强化学习为了证明交易代理的可行性,我们考虑在单一证券上交易固定头寸大小的代理。这里描述的方法可以推广到交易或优化投资组合、交易证券数量、连续分配资产或管理多个资产组合的更复杂的代理。我们将进一步单独讨论这个问题。有关一些初步讨论,请参见[13]。直觉上,我们会找到一个目标函数,以便代理知道我们要最大化或最小化什么。正如现代投资组合理论(portfoliotheory)所建议的那样,大多数现代基金经理都试图使用夏普比率(Sharpe Ratio)来最大化风险调整后的回报。夏普比率定义如下【14】:ST=平均(Rt)标准偏差(Rt)=E【Rt】qE【Rt】- (E[Rt])(1)其中RTI是交易期的投资回报率,且表示期望值。在现代投资组合理论中,夏普比率越高,投资策略的回报率就越低。正如前面所讨论的,我们可以使用其他函数或比率,但出于演示目的,我们将在本文中使用夏普比率和下行偏差比。下一步,我们需要确定代理商的交易方式。交易员会选择多头、中性或空头头寸。多头头寸是指买入一定数量的证券,而空头头寸则是指卖出证券。在此,为了便于解释和协调,我们将主要遵循[7][15]中的注释。让我们定义一下∈ [-1,0.1]表示时间t的交易头寸。当Ft>0时,沿头寸。

7
何人来此 在职认证  发表于 2022-6-1 04:28:08
在这种情况下,交易者以Pt的价格购买证券,并希望价格在t+1期间上涨。当Ft<0时为空头位置。在这种情况下,交易者以Pt的价格短期出售(借入以出售)证券,并希望价格在t+1期间下跌,以便交易者可以回购该证券以返还其借入的证券。直观地说,可以使用Tanh函数来表示此设置,因为它从-1变为1。我们将交易者函数定义为:Ft=tanh(wTxt)(2),其中xt=[rt-m+1。。。rt]和返回rt=pt- pt公司-1注意,交易者函数还可以添加偏差项b和带有参数u的最后交易决策,以添加到回归中。带有参数的最新交易决策可以阻止代理频繁改变交易头寸,避免巨大的交易成本。然后我们可以重写方程toFt=tanh(wTxt+b+uFt-1) (3)将股票数量与交易成本c相加为s,我们可以在t asRt=s(Ft)时写入回报-1rt- c |英尺- 英尺-1 |)(4)通过设置上述要素,我们现在可以尝试使用梯度上升或其他方法来最大化夏普比率,我们将在第四节中进一步讨论这些方法,以确定代理使用的最佳权重。让我们再次思考给定的交易系统模型Ft,目标是调整参数或权重w,以最大化ST。

8
nandehutu2022 在职认证  发表于 2022-6-1 04:28:11
我们可以将权重写如下:wt=wt-1+ρdStdwt=重量-1+w(5)式中,wt是时间t处网络的任何权重,sti是我们希望最大化或最小化的度量,ρ是不可调整的学习速率。在一系列T周期内,检查STor梯度相对于权重w的导数为:dSTdw=TXt=1dSTdRtdRtdFtdFtdw+dRtdFt-1英尺-1dw(6) 然后,可以通过重复计算STon forward的值通过以下数据在批处理模式下对交易者进行优化:dRtdFt=-scsign(英尺=英尺-1) (7)dRtdFt-1=rt+scsign(英尺=英尺-1) (8)dFtdw=英尺w+英尺英尺-1英尺-1dw(9)由于固有的重复性,数量dFt/dw是依赖于之前时间段的整个序列的总导数。换句话说,dFt/dw是循环的,依赖于所有以前的值。虽然它确实减慢了梯度,但由于现代计算能力和样本范围,它并没有带来不可逾越的负担。为了正确计算和优化这些总导数,我们可以部署类似于反向传播时间(BPTT)中的引导方法【16】。或者,可以使用简单的在线随机优化,只考虑(6)中的项,该项取决于数据前向传递期间最近实现的回报率Rt。(6)中的方程式变为:dStdw≈TXt=1dStdRtdRtdFtdFtdw+dRtdFt-1英尺-1dw(10) 这种算法执行随机优化或有效地使算法成为随机梯度上升。如前所述,还有其他方法可以最大化目标函数。我们将在第四节中进一步讨论。我们还测试了梯度学习算法的权重衰减变量,如【15】所述,以验证其性能。使用权重衰减,(5)变为:wt=wt-1+ρdStdwt- νwt=-1=重量-1(1 - ν) + w(11),其中ν是重量衰减系数。

9
mingdashike22 在职认证  发表于 2022-6-1 04:28:14
添加权重衰减可以提高中立型网络的性能,因为权重越小,数据中的噪声越小。与[15]中的发现类似,权重衰减对单层神经网络没有帮助,因为从理论上讲,它的目的是简化神经网络学习的规则,防止神经网络记忆数据中的噪声。下一节将介绍深度学习转型和辍学,以更好地调整绩效。虽然夏普比率是使用最广泛的风险调整指标,但它提供的排名表明,这与投资者的风险意识背道而驰,因为方差或Rtas风险度量的使用无法区分上行风险和下行风险,因此会对大额正收益或负收益进行惩罚。对大多数投资者来说,风险是指投资组合中降低其盈利能力的回报。在本文中,我们将使用递归神经网络和下行偏差率对这两种信号进行实验,以保护下行风险。与方程(1)类似,我们可以将下行偏差率定义如下:DT=平均(Rt)DDT=E[Rt]pE[min[Rt,0]](12)方程(5)becomeswt=wt-1+ρdDtdwt=wt-1+w(13)计算上,如果这里的0被描述为一个非常小的数字,那么它将更容易。我们将在第五章第三节LSTM中检查下侧偏差率和夏普比率的性能,以获取信息性特征学习。为了进一步研究,我们试图找到在估计协方差矩阵[17]或特征[9]时考虑决策目标的有效算法。作为前者的一个例子,有向主成分分析(Directed Principal ComponentAnalysis)[17]用于在考虑决策目标的情况下估计协方差矩阵。这种方法可用于投资组合估计和预测。

10
nandehutu2022 在职认证  发表于 2022-6-1 04:28:17
后者试图使用深度神经网络转换或模糊学习方法来帮助理解我们输入到循环强化学习结构中的信号【9】。在此,我们将探讨如何使用长-短期记忆。我们实现了LSTM(长-短期记忆)[18],以了解和动态感知市场状况,并将其用于信息性特征学习。从理论上讲,递归神经网络的出现是因为它可以将以前的信息与我们要完成的当前任务联系起来。不幸的是,在实践中,相关信息与所需信息之间的差距可能变得非常大。随着差距的扩大,RNN无法学会连接信息[19]。LSTMwas于1997年首次引入【18】,以解决长序列建模的困难。根本问题是,在许多阶段传播的梯度要么消失,要么爆炸。在传统的递归神经网络中,在梯度反向传播阶段,梯度信号最终可以乘以与递归隐藏层神经元之间的连接相关的权重矩阵,乘以大量的次数,可能与时间步长的次数相同。换句话说,transitionmatrix中权重的大小会对学习过程产生很大的影响。如果该矩阵中的权重很小,则会导致梯度消失,梯度信号变得很小,以至于学习速度很慢或完全停止工作。除此之外,如果梯度信号较大时,该矩阵中的权重较大,我们通常将其称为分解梯度。之前,我们讨论了基于递归神经网络的问题。这些问题是LSTM模型背后的主要动机,该模型引入了一种称为阿米细胞的新结构。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 11:52