楼主: 大多数88
1103 17

[量化金融] 作为游戏的金融交易:一种深度强化学习方法 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-6-10 06:27:19
这也有利于实时交易,因为交易决策可以在低延迟的情况下执行,并且培训可以在市场收盘后推迟。2.5.2完整的在线学习算法我们对原始DRQN算法采用上述更新方案,并提出一个完整的在线学习算法,我们将在下一节中进行评估。我们放弃了常见的步行优化过程,该过程涉及将数据集切片为连续的训练集和测试集。由于以这种方式构建的每个训练集都有较大的重叠,因此在我们的早期实验中观察到了强烈的过拟合。因此,我们以一种最类似实时交易的纯在线方式优化我们的网络。Weterm得出的算法是金融深度递归Q网络(Financial DRQN)。算法1财务DRQN算法1:初始化T∈ N、 递归Q-网络Qθ,目标网络Qθ-带θ-= θ、 数据集D和环境E,步骤=12:从数据集D3模拟环境E:从环境E4观察初始状态s:对于每个步骤do5:步骤← 步骤+16:选择贪婪行动w.r.t.Qθ(s,a)并应用于环境E7:从环境E8接收奖励r和下一状态SF:增强行动以形成t=(s,a,r,s),并将t存储到内存D9:如果D已填充且步骤mod t=0,则10:从D11中采样长度t的序列:使用等式(4)和(5)训练网络Qθ12:结束if13:软更新目标网络θ-← (1 - τ)θ-+ τθ14:end for在实践中,我们发现实现一个简单的开放式健身房(如environmentBrockman et al.(2016))非常有用。因为在RL范式下,大多数开源回测引擎都很难使用。3.

12
何人来此 在职认证  发表于 2022-6-10 06:27:22
实验在本章中,我们给出了12对货币对上的财务DRQN算法的数值结果,针对不同的价差设置测试了该算法,并研究了所提出的行动增强技术的有用性。3.1超参数在本节中,我们将在即期外汇市场上验证我们的方法。我们相信,我们的方法可以通过最小的修改扩展到其他金融市场。下面列出了算法1中使用的超参数,这些参数在现代深度强化学习文献中非常标准。在所有实验中,超参数和模型架构均保持不变。Hyperparameters值Learning timestep T 96 Replay内存大小N 480学习率0.00025优化器AdamDiscount因子0.99目标网络τ0.001作为游戏的金融交易我们没有对Hyperparameters进行彻底搜索,但坚持使用显示良好经验结果的参数。3.2模拟结果我们需要额外的参数进行交易模拟。这些参数主要用于计算年度回报率和夏普比率等交易统计数据。使用的参数如下所示,并在每次模拟中保持不变。模拟参数值初始现金1000000交易规模1000000价差(bp)0.08交易日252天/年下面我们给出了12种货币对的数值结果。我们考虑两条基线:买入并持有和“卖出并持有”,因为一些货币对在整个测试期间呈现持续下降趋势。产生较大增益的一个用作基线。损益按累计收益百分比报告。每次实验进行5次。这可以作为所提议方法的“稳健性测试”。超过5次的股票曲线以蓝色曲线绘制,在阴影区域有一个标准偏差范围。表1总结了每种货币对的绩效。

13
能者818 在职认证  发表于 2022-6-10 06:27:25
年度回报和风险调整指标首先计算每日回报,然后乘以系数252进行年度化(√夏普和索蒂诺比率为252。)括号中还提供了年度回报的基线。基线之间的最大下降(MDD)和日志返回相关性也使用每日返回计算。表2汇总了有关总体贸易活动的其他统计数据。我们发现,代理商倾向于更高的胜率(约60%),同时保持大致相等的平均利润和每笔交易的损失(约2个基本点的差异)。交易预期使用赢率和平均PnL计算。交易频率的计算方法是将数据长度除以交易总数。3.3价差的影响由于价差是市场摩擦的唯一来源,因此在各种价差设置下检查算法性能是有意义的。我们对0.08、0.1、0.15和0.2基本点的价差水平进行了实验,并发现了以下事实:1。一般来说,传播范围越广,性能越差。这符合我们的直觉,因为支付的交易成本与价差的宽度成正比。1、Adam optimizer Kingma and Ba(2014)2。初始现金为基础货币100000。3、对于非日元报价货币,我们将bp保持为0.0001,对于日元报价货币,我们将bp保持为0.01。4、我们将一步PnL分成连续的96个步骤,形成“每日”PnL。5.

14
何人来此 在职认证  发表于 2022-6-10 06:27:28
利差水平来自领先的在线破拆商互动经纪人。黄先生,Chien YiNet利润回报率Sharpe Sortino MDD CorrGBP USD 93876.40 16.2%(-3.5%)1.5 2.5-8.63%-0.09EURUSD 55046.00 9.5%(-1.6%)1.0 1.6-11.76%0.01澳元USD 85658.40 14.8%(-4.2%)1.7 2.7-6.96%0.02新西兰元984.80 17.1%(-1.2%)2.2 4.0-4.17%-0.04USD 71585.40 12.2%(4.0%)1.4 2.5-6.21%0.11欧元61927.80 12.8%(1.1%)1.8 3.5-5.51%0.21澳元260776.20 34.3%(-2.8%)5.7 12.4-1.21%0.02CADJPY 8923129.40 20.4%(3.2%)1.8 3.1-25.24%0.20AUDJPY 11404412.00 25.1%(2.0%)2.0 3.3-11.69%0.18CHFJPY 28816485.20 60.8%(7.0%)3.1 6.3-7.71%0.31欧元JPY 13576373.50 23.6%(6.1%)1.9 3.2-12.90%0.18GBPJPY 26931635.80 39.0%(4.7%)2.9 5.8-7.73%-0.07表1:年化模拟结果交易数量赢利率平均利润平均损失预期频率33133美元57.2%70.25-87.33 2.83 4.22欧元31215 57.2%60.67-77.12 1.76 4.48澳元31263 57.2%54.52-66.6 2.74 4.47NZDUSD 32382 59.6%52.17-69.34 3.06 4.32USD 26636 57.7%63.46-80.16 2.71 5.25EURBP 32032 61.2%37.76-54.58 1.93 4.36澳元38173 63.2%49.93-67.18 6.83 3.66加元26332 59.6%6410.1-8612.01 340.1 5.31澳元26638 60.7%7092.02-9883.08 428.92 5.25瑞士法郎32089 61.5%7287.77-9294.91 898.92 4.36欧元30509 61.5%7483.41-10801.23 445.0 4.58英镑31204日元60.8%10791.52-14503.05 864.67 4.48表2:交易统计2。对于0.15个基点以下的大多数货币对,代理机构保持盈利。对于美元/加元和欧元/英镑货币对,在0.2基本利差下无法发现可支持的策略。一个有趣的发现是,更广泛的传播并不总是导致更差的性能。一些日元报价货币对的表现实际上有所提升。

15
kedemingshi 在职认证  发表于 2022-6-10 06:27:32
我们认为,稍宽的价差迫使代理商找到更可靠的策略,在市场变化下更稳健。3.4动作增强的效果我们通过将动作增强技术与传统的-贪婪策略 = 0.1. 通过动作增强,绩效提升金融交易整体水平0.08个基点0.1个基点0.15个基点0.2个基点美元16.2%18.8%6.1%6.7%EURUSD 9.5%5.8%0.1%1.1%AUDUSD 14.8%10.0%7.3%5.2%NZDUSD 17.1%14.2%12.4%4.2%9.0%6.9%3.4%EURGBP 12.8%3.8%0.2%3.8%34.3%35.9%29.9%23.4%加元20.4%32.4%18.9%14.8%澳元25.1%26.4%15.3%10.2%瑞士法郎60.8%79.8%56.1%43.5%欧元23.6%35.6%17.2%15.2%英镑兑日元39.0%44.4%31.0%27.0%23.8%26.3%16.7%11.9%表3:不同利差下的年化收益率。并且标准差变窄,表明该算法更加稳健可靠。表4列出了两者的性能-贪婪策略和行动增强。当我们使用行动增强时,平均每年获得6.4%的额外回报。-贪婪法案8月收益BPUSD 13.7%16.2%2.5%EURUSD 7.1%9.5%2.4%AUDUSD 6.4%14.8%8.4%NZDUSD 9.5%17.1%7.6%USDCAD-4.1%12.2%16.3%EURGBP 7.1%12.8%5.8%AUDNZD 28.1%34.4%6.3%CADJPY 17.9%20.4%2.5%20.3%25.0%4.8%57.0%60.8%3.8%欧元兑日元15.0%23.6%8.6%英镑兑日元30.9%39.0%8.1%17.4%23.8%6.4%表4:有无行动增强的年化收益率。4、结论本章对本文进行了总结并指出了未来的研究方向。本论文的研究成果可概括如下:1。我们为基于信号的交易策略提出了一个MDP模型,该模型适用于未来扩展,对模型架构和学习算法的修改最少。2.

16
mingdashike22 在职认证  发表于 2022-6-10 06:27:35
我们修改了现有的深度递归Q网络学习算法,使其更适合金融交易环境。特别是,我们提出了一种动作增强技术来缓解随机探索的需要。与基于价值的深度强化学习相比,我们还使用了更小的重播内存。3、我们对所提出的算法进行了12种货币对的实证研究,并在大多数模拟环境下取得了积极的结果。据作者所知,这是纯深层强化学习算法在交易成本下取得的第一个积极成果。代理发现的策略在基线之间的相关性很低或没有相关性。4、我们发现了一个与直觉相反的事实,即略微增加的价差会带来更好的整体性能。超过一半的货币对都存在这种现象。我们认为,略高的价差迫使代理在学习过程中发现更稳健、更可靠的交易策略。然而,进一步扩大分布会破坏性能。4.2未来工作拟议方法有许多未来改进的潜力。我们列出了一些我们认为最重要和最有趣的方法:1。展开状态空间和动作空间。我们可能会增加更多的输入功能,如其他市场的价格数据(即使乍看起来似乎不相关的市场),宏观数据(政治和经济发布的新闻,经济指数等基础数据)。对于行动空间,我们可以让代理人在做出交易决策时有更多的自由,例如决定投资多少(即头寸大小),甚至发布限额订单。这需要一个更复杂的动作空间和动作的仔细输出表示。2、将强化学习应用于不同的交易场景,例如高频交易、成对交易或长期股权投资。

17
可人4 在职认证  发表于 2022-6-10 06:27:38
这是对我们方法稳健性的进一步测试。可以根据投资者的需要创建一个组合,组合许多不同的策略。3、利用分布强化学习Bellemare et al.(2017)采取风险调整行动。在分布强化学习中,不是学习预期回报E[Q(s,a)],而是学习Q(s,a)上的整个分布。这可能是由于Bellman方程的分布变量,Q(s,a)D=R(s,a)+γQ(s,a)。金融交易作为一种博弈,在本文中,我们选择的行为仅仅是为了最大化预期收益。也就是说,weblindly在不考虑风险的情况下实现利润最大化。这是不令人满意的,因为很明显,我们更喜欢方差较低的交易决策,尽管它可能不太有利。由于了解了整个分布,我们能够选择具有最高预期Q值和最低标准偏差Q值的行动,即a=arg maxa∈AE【Q】pVar【Q】。通过这种方式,我们选择夏普比率最高的行动,该策略将更适合现代投资者。Huang,Chien Yiaappendix在本附录中,我们提供了第4节中所有实验的权益曲线。图2:0.08基本利差下的表现。图3:不同价差下的业绩。作为游戏的金融交易图4:有无动作增强的表现。参考Marc G Bellemare、Will Dabney和R’emi Munos。强化学习的分布视角。arXiv预印本arXiv:1707.068872017。Greg Brockman、Vicki Cheung、Ludwig Pettersson、Jonas Schneider、John Schulman、JieTang和Wojciech Zaremba。Openai健身房。arXiv预印本arXiv:1606.015402016。Djork Arn\'e Clevert、Thomas Unterthiner和Sepp Hochreiter。通过指数线性单元(ELU)快速准确地进行深度网络学习。

18
何人来此 在职认证  发表于 2022-6-10 06:27:41
arXiv预印本arXiv:1511.072892015。何开明、张向玉、任少清、孙健。深入研究整流器:在imagenet分类方面超越人类水平的性能。《EEE国际计算机视觉会议记录》,第1026-10342015页。Diederik P Kingma和Jimmy Ba。Adam:一种随机优化方法。arXiv预印本arXiv:1412.69802014。Quoc V Le、Navdeep Jaitly和Geo Offrey E Hinton。一种初始化矩形线性单元递归网络的简单方法。arXiv预印本arXiv:1504.009412015。李玉玺。深度强化学习:概述。arXiv预印本arXiv:1701.072742017。Richard S Sutton和Andrew G Barto。强化学习:导论,第1卷。麻省理工学院出版社剑桥,1998年。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 05:55