楼主: 大多数88
1104 17

[量化金融] 作为游戏的金融交易:一种深度强化学习方法 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

67%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
70.8997
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
23294 点
帖子
3809
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
大多数88 在职认证  发表于 2022-6-10 06:26:48 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Financial Trading as a Game: A Deep Reinforcement Learning Approach》
---
作者:
Chien Yi Huang
---
最新提交年份:
2018
---
英文摘要:
  An automatic program that generates constant profit from the financial market is lucrative for every market practitioner. Recent advance in deep reinforcement learning provides a framework toward end-to-end training of such trading agent. In this paper, we propose an Markov Decision Process (MDP) model suitable for the financial trading task and solve it with the state-of-the-art deep recurrent Q-network (DRQN) algorithm. We propose several modifications to the existing learning algorithm to make it more suitable under the financial trading setting, namely 1. We employ a substantially small replay memory (only a few hundreds in size) compared to ones used in modern deep reinforcement learning algorithms (often millions in size.) 2. We develop an action augmentation technique to mitigate the need for random exploration by providing extra feedback signals for all actions to the agent. This enables us to use greedy policy over the course of learning and shows strong empirical performance compared to more commonly used epsilon-greedy exploration. However, this technique is specific to financial trading under a few market assumptions. 3. We sample a longer sequence for recurrent neural network training. A side product of this mechanism is that we can now train the agent for every T steps. This greatly reduces training time since the overall computation is down by a factor of T. We combine all of the above into a complete online learning algorithm and validate our approach on the spot foreign exchange market.
---
中文摘要:
一个能从金融市场产生持续利润的自动程序对每个市场从业者来说都是有利可图的。深度强化学习的最新进展为此类交易代理的端到端培训提供了一个框架。本文提出了一种适用于金融交易任务的马尔可夫决策过程(MDP)模型,并用最先进的深度递归Q网络(DRQN)算法进行求解。我们对现有的学习算法进行了一些修改,使其更适合金融交易环境,即1。与现代深度强化学习算法中使用的重播内存(通常为数百万)相比,我们使用的重播内存非常小(只有几百个大小)2、我们开发了一种动作增强技术,通过向代理提供所有动作的额外反馈信号来缓解随机探索的需要。这使我们能够在学习过程中使用贪婪策略,与更常用的epsilon贪婪探索相比,它显示出强大的经验性能。然而,在一些市场假设下,这种技术是特定于金融交易的。3、我们对一个较长的序列进行采样,以进行递归神经网络训练。这种机制的一个副产品是,我们现在可以为每个T步骤训练代理。这大大减少了训练时间,因为总体计算量减少了一倍。我们将以上所有内容结合到一个完整的在线学习算法中,并在即期外汇市场上验证了我们的方法。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Trading and Market Microstructure        交易与市场微观结构
分类描述:Market microstructure, liquidity, exchange and auction design, automated trading, agent-based modeling and market-making
市场微观结构,流动性,交易和拍卖设计,自动化交易,基于代理的建模和做市
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
--> Financial_Trading_as_a_Game:_A_Deep_Reinforcement_Learning_Approach.pdf (887.6 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:金融交易 学习方法 Quantitative Augmentation Practitioner

沙发
kedemingshi 在职认证  发表于 2022-6-10 06:26:53
金融交易作为游戏金融交易作为游戏:深度强化学习方法。am03g@nctu.edu.twDepartment台湾交通大学应用数学系(Applied Mathematics)编辑:ABC XYZAbstractAn自动程序可以从金融市场中产生持续的利润,对每个市场从业者来说都是幸运的。深度强化学习的最新进展为此类交易代理的端到端培训提供了框架。在本文中,我们提出了一种适用于金融交易任务的马尔可夫决策过程(MDP)模型,并使用最先进的深度递归Q网络(DRQN)算法进行求解。我们对现有的学习算法提出了一些修改,使其更适合金融交易环境,即1。与现代深度强化学习算法中使用的重播内存(通常为数百万)相比,我们使用了非常小的重播内存(只有几百个大小)2、我们开发了一种动作增强技术,通过向代理提供所有动作的额外反馈信号来缓解随机探索的需要。这使我们能够在整个学习过程中使用贪婪策略,与更常用的策略相比,它显示出强大的经验性能-贪婪的探索。然而,在一些市场假设下,这种技术是特定于金融交易的。3、我们抽取一个较长的序列进行递归神经网络训练。这种机制的一个副产品是,我们现在可以为每个T步骤培训代理。这大大减少了调整时间,因为整体计算减少了一倍T。我们将以上所有内容结合到一个完整的在线学习算法中,并在即期外汇市场上验证了我们的方法。关键词:深度强化学习、深度回归Q网络、金融交易、外汇1。

藤椅
kedemingshi 在职认证  发表于 2022-6-10 06:26:56
引言在本文中,我们研究了将深度强化学习算法应用于金融交易领域的有效性。与游戏领域或机器人技术不同的金融交易带来了一些独特的挑战。我们指出了其中一些我们认为是成功应用的关键。1.1金融交易任务描述金融交易任务的一种方式如下:“代理人与市场互动,试图实现某种内在目标。”黄建一表示,特工不需要是人;算法交易现在占据了现代金融市场中大量的交易活动。常见的互动包括观察新的财务数据或向交易所提交新订单等。例如,对冲基金经理的内在目标可能是风险调整措施,例如,在特定的波动阈值下,试图达到15%的年回报目标。主动交易者的目标可能只是追求最高利润,而没有适当考虑所产生的风险。一个极端的例子是,一个人只为“赌博感觉”而交易,根本不关心金融市场。尽管上述描述相当笼统,但这类任务有一些特点:1。代理人以离散的时间步与金融市场进行互动,即使时间步可能非常接近,例如,在高频交易中,交易决策可以在几毫秒内做出。代理人可以在市场上采取一系列法律行动,从天真地提交具有固定头寸规模的市场订单到提交完全指定的限额订单。3、金融市场在每一个时间段都会产生可供代理人使用的新信息,使代理人能够做出交易决策。然而,代理没有关于数据是如何生成的完整线索。4.

板凳
大多数88 在职认证  发表于 2022-6-10 06:26:58
如果金融市场足够强大,代理人有可能改变金融市场,尽管不能完全控制金融市场。因此,认为市场对代理人来说完全是外生的并不完全现实。鉴于这些特点,我们希望有一个统一的框架来培训此类代理人。这是本文背后的部分动机。1.2动机有许多深层强化学习的成功案例,一个自然的问题是:“一个艺术经纪人能成功地学习交易吗?”成功取决于代理人实现其内在目标的程度。强化学习最基本的假设之一是,可以通过最大化长期未来回报来表达代理的目标。奖励是一个单一的标量反馈信号,反映了代理人在某种状态下行为的“善”。这被称为反向假设。定义1(奖励假设)所有目标都可以通过预期未来奖励的最大化来描述。上述四个特征类似于强化学习。机器学习的Abranch,研究顺序决策的科学。由于解决了以前不可行的具有挑战性的控制任务,强化学习最近受到了相当多的关注。因此,这篇论文背后的动机是,看看最近提出的技术是否会转移到金融交易任务中,看看我们可以使用这些技术走多远。金融交易作为游戏1.3挑战我们确定了将强化学习应用于金融交易的四大挑战:1。缺乏基线。在将深度强化学习应用于视频游戏和机器人技术方面发表了大量工作。关于如何将相同算法应用于金融交易Li(2017)的工作相对较少。

报纸
kedemingshi 在职认证  发表于 2022-6-10 06:27:01
早期实验没有明确的基线,也没有合适的MDP模型、网络架构或一组超参数。2、数据质量和可用性。很难获得高分辨率的财务数据。通常只有开盘价、高价、低价和收盘价(OHLC)数据可以自由访问,这可能不足以产生成功的交易策略。金融时间序列本身是非平稳的,对基于梯度的标准学习算法提出了挑战。3、金融市场的部分可观测性。无论我们的输入状态多么“完整”,金融市场中总会存在一定程度的不可观察性。我们无法观察到每个市场参与者对当前市场状况的共识。4、勘探开发困境。尽管现代强化学习算法非常复杂,但通常使用的是幼稚的探索策略。例如,-基于价值的方法中的贪婪探索和基于政策的方法中的Boltzmann探索Sutton和Barto(1998)。这在金融交易环境中是不可行的,因为随机探索将不可避免地产生巨大的交易成本并损害绩效。1.4贡献本论文的贡献有三个方面:1。我们为一般基于信号的金融交易任务提出了一个马尔可夫决策过程(MDP)模型,该模型可通过最先进的深度强化学习算法解决,且仅可公开访问数据。MDP模型易于扩展,具有更复杂的输入功能和更复杂的动作空间,对模型架构和学习算法的修改最少。2、我们修改了现有的深度递归Q网络算法,使其更适合金融交易任务。这涉及到使用非常小的重放内存,并对更长的训练序列进行采样。

地板
可人4 在职认证  发表于 2022-6-10 06:27:04
我们对上述两个发现感到惊讶,因为在深度强化学习中,通常会使用大量的重复记忆,而采样序列的长度通常只有几个时间步长。我们还发现了DRQN算法的可行超参数,该算法能够通过随机搜索解决金融交易MDP。我们还开发了一种novelaction增强技术,以缓解金融交易环境中随机探索的需要。黄,简一3。我们在12种不同的货币对上实现了正回报,包括交易成本下的主要货币对和交叉货币对。据作者所知,这是首次使用纯深层强化学习技术成功应用于真实金融数据。本文给出的数值结果可以作为未来研究的基准。本文的结构如下:在第二部分中,我们详细描述了所提出的方法,包括数据准备、特征提取、模型结构和学习算法。在第3节中,我们将所有提出的技术结合到一个单独的在线学习算法中。在第4节中,我们在外汇现货市场上评估了我们的算法,并给出了数值结果。方法在本节中,我们对所提出的MDP模型、模型架构以及学习算法进行了详细描述。2.1数据准备和特征提取我们从TrueFX下载逐笔外汇数据。2012年1月至2017年12月。我们选择了12种货币对,即澳元日元、澳元新西兰元、澳元美元、加元日元、瑞士法郎日元、欧元英镑、欧元日元、欧元美元、英镑日元、英镑美元、新西兰元和美元加元。对于多样性,包括主对和交叉对。然后,我们将数据重新采样为15分钟间隔,包括开盘价、高价、低价、收盘价和交易量。

7
kedemingshi 在职认证  发表于 2022-6-10 06:27:07
选择forexover其他资产类别的原因是易于访问高分辨率数据,通常访问成本很低或很低。2.2金融交易MDP本节我们定义了金融交易MDP的状态空间、行动空间和奖励函数。2.2.1状态空间∈ r状态表示是一个198维向量,由以下三部分组成:o时间特征∈ r由于外汇市场是所有金融市场中开放时间最长的市场。为了让我们的代理人区分不同的市场时段,我们将当前时间戳的分钟、小时和星期几添加为staterepresentation的一部分。这是通过正弦函数进行编码的2πtT式中,t是当前值(基于零的编号),t是t的可能值数。作为游戏的金融交易o市场特征∈ R16×12我们从OHLCV数据中提取了16个特征,其中包含8个关于收盘价和交易量的最新日志回报。然后对16个输入特征的每个维度应用周期96的连续Z分数归一化。我们还将归一化后的值裁剪10,以消除异常值。我们利用所有12种货币对的价格特征,希望深度神经网络能够从数据中提取有用的市场间特征位置特征∈ r代理的当前位置通过一个三维单热向量进行编码,该向量指示当前位置是否为-1、0或+1单位,例如,如果当前位置为+1单位,则编码将为[0、0、1]。2.2.2动作空间我们采用三个值{-1,0,1}的简单动作集。允许头寸冲销(导致交易成本翻倍)。请注意,当当前头寸为+1且代理在下一时间步再次输出+1时,将不会执行任何交易操作。

8
何人来此 在职认证  发表于 2022-6-10 06:27:10
这有时指的是目标订单,其中输出指示的是目标头寸大小,而不是交易决策本身。这简化了动作空间的定义,并使实施更加容易。2.2.3奖励函数我们将奖励函数定义为每个时间步的投资组合日志回报,即rt=logvtvt-1.(1) 其中VT是投资组合价值(账户余额加上未结头寸的未实现PnL)。根据上述定义,投资组合价值vt满足一个简单的递归关系vt=vt-1+at·c·(ct- 加班费)- dt(2)式中,atis为产出作用,c为(恒定)交易规模,ot、cta为当前开盘价、收盘价,dt为佣金期限。佣金dt由dt=c·| at计算- 在-1 |·摊铺。(3) 我们使用价差作为衡量交易决策成本的原则方法。我们在这里考虑的价差与实际价差不同,它在学习过程中保持不变。这是为了便于比较不同的货币对,因为货币对之间的价差宽度不同。通过这种方式定义奖励函数,回报GT与未来折扣日志回报有很好的解释。当面对操作选择时,代理有效地选择具有最高日志返回的操作。我们更喜欢日志返回而不是算术返回,因为它们是相加的,这在RL设置中更为自然。Huang,Chien-Yi2.3充分利用行动增强随机探索在金融交易环境中并不令人满意,因为交易成本随着头寸的变化而变化。我们提出了一种简单的技术,通过为代理提供每个动作的奖励信号来缓解探索需求。这是有可能的,因为在观察到当前时间步的价格后,可以使用公式(1)轻松计算奖励。

9
kedemingshi 在职认证  发表于 2022-6-10 06:27:13
例如,如果weexecute action+1之后当前步骤的未实现PnL为+10,那么我们立即知道,如果执行action-1,我们将获得-10和0的奖励。因此,可以计算所有行动的投资组合价值VT(因此是奖励信号)。另一方面,如果我们采取其他行动,国家唯一会改变的部分是代理人的立场。这就是所谓的零市场影响假设,即市场参与者采取的行动对当前市场状况没有影响。我们还假设代理发出的订单总是以下一开盘价执行。也就是说,如果输出被确定,我们总是知道下一步的位置。现在,我们可以更新所有操作的Q值。我们以向量形式写下一个新的损失函数,称为动作增强损失,L(θ)=E(s,a,r,s)~Dkr+γQθ-(s,arg maxaQθ(s,a))- Qθ(s,a)k(4)θ ← θ - αθL(θ)(5),其中Qθ-表示目标网络。2.4模型架构我们使用四层神经网络作为函数逼近器来表示最优作用值函数q*. 前两个是具有256个隐藏单元的线性层和ELUClevert et al.(2015)激活。第三层是具有相同大小的LSTM层。第四层是另一个具有3个输出单元的线性层。网络相对较小,约有65000个参数。2.4.1权重初始化权重初始化对于深度神经网络的成功训练至关重要。我们遵循He等人(2015)提出的初始化方案,用于隐藏层中的权重矩阵和LSTM中隐藏层的输入。我们遵循Le et al.(2015)将所有隐藏到隐藏权重矩阵初始化为恒等式。我们将网络中的所有偏差设置为零,除了LSTM中的遗忘门设置为1。

10
大多数88 在职认证  发表于 2022-6-10 06:27:16
我们用高斯分布N(0,0.001)稀疏初始化输出层权重矩阵。2.5培训计划在本节中,我们将上述所有内容结合在一起,并提出一个完整的学习算法,我们将在第5节中对其在即期外汇市场上进行评估。作为GameQ(St)ht的金融交易-1ht·····································。2.5.1修改后的训练方案在对DRQN的原始更新方案进行一些实验后,我们提出了以下修改:1。我们发现使用相对较小的重播内存更有效。这与基于价值的深度强化学习中的“常识”不同,后者使用了大量的游戏记忆(通常有数百万个)。这是很直观的,因为在金融交易中,最近的数据点比过去的数据点更重要。如果我们增大回放内存,性能会下降。2、我们从回放内存中采样的序列比DRQN论文中使用的步骤数更长。这种调整背后的原因是,成功的交易策略包括在正确的时间开仓,并在相当长的时间内持有头寸,然后退出头寸。对短序列进行采样不能有效地训练网络学习所需的长期依赖性。3、我们发现,由于我们对更长的序列进行采样,因此没有必要对每个步骤的网络进行训练。因此,我们只针对每个T时间步对网络进行训练。这显著减少了计算量,因为向后传递的次数减少了一倍T。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 06:07