楼主: nandehutu2022
1227 24

[量化金融] 捕捉金融市场以应用深度强化学习 [推广有奖]

  • 0关注
  • 5粉丝

会员

学术权威

74%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
69.6121
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24246 点
帖子
4004
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-20

楼主
nandehutu2022 在职认证  发表于 2022-6-24 08:16:35 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Capturing Financial markets to apply Deep Reinforcement Learning》
---
作者:
Souradeep Chakraborty
---
最新提交年份:
2019
---
英文摘要:
  In this paper we explore the usage of deep reinforcement learning algorithms to automatically generate consistently profitable, robust, uncorrelated trading signals in any general financial market. In order to do this, we present a novel Markov decision process (MDP) model to capture the financial trading markets. We review and propose various modifications to existing approaches and explore different techniques like the usage of technical indicators, to succinctly capture the market dynamics to model the markets. We then go on to use deep reinforcement learning to enable the agent (the algorithm) to learn how to take profitable trades in any market on its own, while suggesting various methodology changes and leveraging the unique representation of the FMDP (financial MDP) to tackle the primary challenges faced in similar works. Through our experimentation results, we go on to show that our model could be easily extended to two very different financial markets and generates a positively robust performance in all conducted experiments.
---
中文摘要:
在本文中,我们探讨了如何使用深度强化学习算法在任何一般金融市场中自动生成持续盈利、稳健、不相关的交易信号。为了做到这一点,我们提出了一种新的马尔可夫决策过程(MDP)模型来捕捉金融交易市场。我们审查并提出对现有方法的各种修改,并探索不同的技术,如技术指标的使用,以简洁地捕捉市场动态,对市场进行建模。然后,我们继续使用深度强化学习,使代理(算法)能够学习如何在任何市场上独自进行有利可图的交易,同时提出各种方法变更,并利用FMDP(财务MDP)的独特表示来应对类似工作中面临的主要挑战。通过我们的实验结果,我们进一步表明,我们的模型可以很容易地扩展到两个非常不同的金融市场,并在所有进行的实验中产生了积极稳健的性能。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--

---
PDF下载:
--> Capturing_Financial_markets_to_apply_Deep_Reinforcement_Learning.pdf (1.29 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:金融市场 Applications Presentation Modification Quantitative

沙发
能者818 在职认证  发表于 2022-6-24 08:16:40
捕捉金融市场以应用深度强化LearningSouradeep Chakraborty*BITS Pilani大学,K.K.Birla GoaCampusf20170170@goa.bits-皮拉尼。ac.in*在Subhamoy Maitra博士的领导下,在ISI CalcuttaJEL的应用统计部门工作:C02、C32、C63、C45Abstracts在本文中,我们探讨了如何使用深度强化学习算法在任何一般金融市场中自动生成一致、可靠、不相关的交易信号。为了做到这一点,我们提出了一种新的马尔可夫决策过程(MDP)模型来捕捉金融交易市场。我们审查并提出对现有方法的各种修改,并探索不同的技术,如技术指标的使用,以简洁地捕捉市场动态,对市场进行建模。然后,我们继续使用深度强化学习,使代理(算法)能够学习如何在任何市场上自行进行可盈利交易,同时提出各种方法变更,并利用FMDP(财务MDP)的独特表示来应对类似工作中面临的主要挑战。通过我们的实验结果,我们进一步表明,我们的模型可以很容易地扩展到两个非常不同的金融市场,并在所有进行的实验中产生积极的稳健性能。关键词:深度强化学习、在线学习、计算金融、Markovdecision过程、金融市场建模、算法交易导入1.1动机自20世纪90年代初以来,人们致力于使用数据和计算自动生成交易,这些数据和计算始终优于基准,并以最小的风险产生持续的正回报。目标开始从“学习如何在金融市场中获胜”转变为“创建一个能够自己学习如何在金融市场中获胜的算法”。

藤椅
mingdashike22 在职认证  发表于 2022-6-24 08:16:43
因此,在这个算法/自动化交易的时代,存在着两大挑战(除其他许多挑战外)——存在干净、可靠(或至少可以使用简单的统计转换轻松修改)的数据,以及一种有效的计算算法,可以生成一致(理想)的利润或可能更有利的交易。随着时间的推移和对干净、易用、免费数据集需求的理解,数据集逐渐演变为可信、完整的数据集。因此,最安全的数据集之一(可靠性和完整性方面)是外汇数据,即时间序列价格数据(每种货币兑换,如美元-印度卢比,在特定日期的成本)。需要注意的一件有趣的事情是,这些数据是动态的,不像表示静态特征的图像,henceone可以理解对在线算法的需要,该算法可以动态工作,并通过每个额外的测试用例来优化自身。机器学习、深度学习和强化学习的出现,使我们能够提出各种算法,能够完全自动地解决图像识别等复杂任务。这促使研究人员和金融机构尝试提出一个用于交易的机器/深度学习框架。因此,花费了数年的研究来合理地建模金融交易任务,但大部分都失败了。(Lopez de Prado 2018)讨论了机器学习对冲基金过去失败的主要原因。21世纪初,深度学习取得了重大进展,许多使用深度学习和强化学习核心原则的混合算法被结合起来,最终提出了一种有效的算法,可以为交易建模——深度强化学习。

板凳
nandehutu2022 在职认证  发表于 2022-6-24 08:16:46
(Arulkumaranet al.,2017)是对DRL的简要调查。大多数强化学习算法的关键应用领域是游戏——在游戏中,算法反复尝试在给定一组决策的情况下选择最佳决策。这个决策过程可以用马尔可夫决策过程建模。这里提到的MDPsia应用的简要概述(White 1993)。然后使用Q-learning解决该MDP,其中学习在环境的每个状态下要采取的最佳行动。DRL应用于此学习过程,为MDP中的每个状态-动作对选择最佳动作。DRL对于Q学习尤其有利,因为数据量巨大或数据严重依赖于时间,所以在诸如随机探索之类的价值迭代过程不可行的场景中,这两种数据都是金融数据集的特征,因此使其成为使用MDP建模的优秀候选者。按照类似的思路,可以将金融交易问题建模为MDP。虽然有很多关于深度强化学习作为MDP解决方案的研究,但作为金融交易应用的深度强化学习是一个相对较新的研究领域,因此,对该主题的研究有限。在这项工作中,我们提出了一种将金融市场建模为MDP的新方法,并提出了一种完全在线的深度强化学习算法来生成评级。1.2财务MDP(FMDP)简介本节假设对强化学习和马尔可夫决策过程有初步了解。有关这些主题的简要回顾,请参阅(Kaelbling、Littman和Moore 1996)和(White 1993)。金融数据环境可以被认为高度依赖于时间,其程度可以被认为是时间的函数。

报纸
大多数88 在职认证  发表于 2022-6-24 08:16:49
因此,此属性可用于开发在线交易算法。巧合的是,马尔可夫过程被定义为捕获整个过去的数据,并在代理的当前状态下定义问题的整个历史。当强化学习问题满足马尔可夫性质时,转移函数(或从一种状态到另一种状态的概率)满足上述条件。从形式上讲,这可以用数学定义如下:P(s+= s′,r+= r|s,a,r…,r,s,a)= P(s+= s′,r+= r|s,a)(1) 因此,我们可以理解金融环境如何很好地融入MDP。例如,一家公司的年度报告刚刚发布,该公司去年亏损严重。无论该公司的历史或商誉如何,这条消息都会对其股价产生负面影响。这种对新事件(以及时间)的高度依赖有助于我们理解在金融环境中,州与州之间的关系在很大程度上取决于当前的州而不是过去的州。1.3主要挑战在本节中,我们介绍了在尝试将深度强化学习应用于金融市场时面临的主要挑战。为这样一项复杂而普遍的任务收集数据是试图为金融市场建模的研究人员面临的主要挑战。这样的任务需要高质量的数据,而且这些数据需要非常详尽,以便agent使用传统的深度强化学习算法进行学习。

地板
大多数88 在职认证  发表于 2022-6-24 08:16:52
此外,我们还面临“维度诅咒”(Verleysenand Francois 2005),因为所需数据的详尽性,这使得actionexploration对于agent来说是一项具有挑战性且计算成本高昂的任务。1.4预期贡献这项工作旨在探索使用简单的数学修正(称为技术指标)来推断易于获取的数据点(而不是高质量的OHCLV或多仪器数据)。我们期望这些指标能够有效地捕捉市场动态以及特定工具的变动。这使我们能够为马尔可夫决策模型实现更简单的状态空间市场表示。此外,另一个目标是最终设计一个深度强化学习代理,该代理可以学习任何一般金融市场中的最佳稳健、可预测和不相关策略。2方法学这项工作旨在建立在现有模型的基础上,将深度强化学习应用于金融市场,提供合理的修改。我们表明,我们的模型在计算上对训练的要求较低(通过实验和理论分析),因此暴露的耐受性较低。为了实现这一改进,我们使用一种新的方法来描述财务马尔可夫决策过程(FMDP),然后使用深度强化学习来找到其最优策略。该FMDP的建模方式可以解决数据可用性和actionexploration问题。

7
何人来此 在职认证  发表于 2022-6-24 08:16:55
然后,我们继续通过实验证明我们模型的改进(第3节),并在第3.3节中展示结果,利用财务数学比率作为评估指标。在本节中,我们展示了我们的方法,比较了现有文献,同时证明了提议的变化。2.1描述财务MDP(FMDP)回想一下,每个有代理人的MDP都有三个基本组成部分——状态空间(代理人可以处于的不同状态)、行动空间(代理人可以在不同状态下采取的不同行动)和奖励空间(代理人在每个状态下获得的对应于每个行动的奖励)。为了对金融交易中的MDP进行建模,我们选择代理作为交易算法,目的是在环境中不断产生一致的利润,这是与正在交易的商品相对应的金融市场(例如,股票市场、货币对外汇市场、原油商品市场等)。这种广义金融马尔可夫决策过程是唯一的;正如所有之前的相关工作,如(Huang 2018)和(Xiong et al.2018),分别有针对外汇市场和股票市场的模型。这一概括是通过定义一个简单的状态空间来实现的,该状态空间能够捕获任务定义,而不包括特定市场的信息。2.1.1国家空间我们的FMDP定义为代理人交易任何一种特定证券(如原油或欧元/美元货币对等),并可以买卖相应证券的合同(从1到最大数量的合同)。FMDP旨在执行不同的市场,因此,我们的状态空间探索技术指标的使用,这是对工具价格数据的数学和统计修改。

8
mingdashike22 在职认证  发表于 2022-6-24 08:16:58
使用技术指标可以让我们简洁地捕捉工具与基础市场的相关性,而无需使用特定的市场特征。这种方法的另一个优点是,这些技术指标要么可以免费获得,要么可以通过简单使用证券的时间序列价格数据获得。我们用来捕捉待交易证券行为的技术指标有:MACD(移动平均收敛-背离(Anghel 2015))、RSI(相对强度指数(Bhargavi、Gumparthi和Anith 2017))、Williams%R(LarryWilliams、Dahlquist,2011发明的动量指标),权重条方向(一个参数,告诉我们通过分配权重形成的烛台(William and Jafari 2011)的方向和重要性)和前一天的高低范围。之所以选择这些指标,是因为它们简单且受欢迎。相比之下,该领域的其他作品通常使用由OHLCV数据组成的市场特征,其中数据非常详尽,或者收盘价数据直接用作相关证券收盘价的特征(如(Huang 2018),(Xiong et al.2018),(Liang 2018)等)。我们对状态空间的表示不仅使其易于移植到其他市场,而且还允许在(Lorenzoni etal)的支持下建立市场间关系,如动量、趋势逆转等。

9
nandehutu2022 在职认证  发表于 2022-6-24 08:17:01
2007年),而不必依赖高质量的数据(如OHCLV,除了股票市场之外,它不是那么容易获得),也不必使状态空间过于复杂。因此,整个状态空间主要分为两个子部分:  位置状态–这是形状的3D向量[L,S,PnL] 哪里L 表示当前购买的合同数量(我们持有的长期合同数量)S 表示当前出售的合同数量(我们持有的短期合同数量),以及PnL表示基于当前头寸的相应利润或损失。在第2.1.2节讨论动作空间时,我们提供了有关位置状态的进一步详细信息。  市场特征–我们利用上述5项技术指标以及时间戳(编码以捕获日期时间)来表示市场特征。这些特性经过精心设计,使得模型可以提取特定于安全性的有意义信息,并使用MinMaxScaler将其缩小到0.1到1之间。(为了规范化(Patro和Sahu,2015年)所探索的数据),我们还将这些指标组织成按时间步长分组的时间序列。凭直觉,我们可以理解这种对市场特征的定义是如何有意义的。我们的代理人被定义为模仿真实世界的交易者,而真实世界的交易者很少使用vanillaprice行动数据,并且经常与技术指标合作,以更密切、更准确地研究潜在的相关性。支持金融交易中技术分析的有效性和力量的研究可以在(Lorenzoni et al。

10
大多数88 在职认证  发表于 2022-6-24 08:17:05
2007)和(Hegde 2017)。我们进一步认识到,对市场特征的这种定义也使状态空间变得不那么复杂(由于维度较低),从而减少了复杂性和培训时间。2.1.2动作空间动作空间被实现为一个单独的值,可以是0、1或2,分别代表持有、买入和卖出信号,每个信号都将简要说明。如果在任何状态下,代理决定执行某个动作,那么相应地,只有状态空间的位置状态才会受到影响。这一点得到了零市场影响假设的支持,该假设本质上表明,代理人的行为永远不会对市场特征产生重大影响。这一重要事实被用来证明,任何行动都不能与州际市场特征的变化直接相关,从而使问题变得不那么复杂。如果生成的动作是保持信号的动作,则前一个时间戳的位置将被转移,并且不会对位置空间进行任何更改。此外,如果动作与买入信号相对应,则向头寸空间添加一个多头合约,前提是头寸空间中的多头合约数量小于我们可以购买的最大合约数量。动作空间中的sell信号以同样的方式工作。我们还以这样一种方式定义了职位空间,即我们可以只签订长期合同,也可以只签订短期合同。这意味着L (操作=1),或S (对于操作=2),或在给定时间戳处两者均为零(对于操作=0)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-16 12:52