楼主: mingdashike22
911 11

[量化金融] 基于强化学习的鲁棒对数优化策略 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
73.8816
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24862 点
帖子
4109
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
mingdashike22 在职认证  发表于 2022-6-10 01:32:08 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Robust Log-Optimal Strategy with Reinforcement Learning》
---
作者:
Yifeng Guo, Xingyu Fu, Yuyan Shi, Mingwen Liu
---
最新提交年份:
2018
---
英文摘要:
  We proposed a new Portfolio Management method termed as Robust Log-Optimal Strategy (RLOS), which ameliorates the General Log-Optimal Strategy (GLOS) by approximating the traditional objective function with quadratic Taylor expansion. It avoids GLOS\'s complex CDF estimation process,hence resists the \"Butterfly Effect\" caused by estimation error. Besides,RLOS retains GLOS\'s profitability and the optimization problem involved in RLOS is computationally far more practical compared to GLOS. Further, we combine RLOS with Reinforcement Learning (RL) and propose the so-called Robust Log-Optimal Strategy with Reinforcement Learning (RLOSRL), where the RL agent receives the analyzed results from RLOS and observes the trading environment to make comprehensive investment decisions. The RLOSRL\'s performance is compared to some traditional strategies on several back tests, where we randomly choose a selection of constituent stocks of the CSI300 index as assets under management and the test results validate its profitability and stability.
---
中文摘要:
我们提出了一种新的投资组合管理方法,称为鲁棒对数最优策略(RLOS),该方法通过二次泰勒展开逼近传统的目标函数来改进一般对数最优策略(GLOS)。它避免了GLOS复杂的CDF估计过程,从而抵抗了由估计误差引起的“蝴蝶效应”。此外,RLOS保留了GLOS的盈利能力,与GLOS相比,RLOS所涉及的优化问题在计算上更加实用。此外,我们将RLOS与强化学习(RL)相结合,提出了所谓的鲁棒强化学习对数优化策略(RLOSRL),其中RL代理接收RLOS的分析结果,并观察交易环境,以做出全面的投资决策。在多次回溯测试中,我们将RLOSRL的表现与一些传统策略进行了比较,在回溯测试中,我们随机选择CSI300指数的成分股作为管理资产,测试结果验证了其盈利能力和稳定性。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Portfolio Management        项目组合管理
分类描述:Security selection and optimization, capital allocation, investment strategies and performance measurement
证券选择与优化、资本配置、投资策略与绩效评价
--

---
PDF下载:
--> Robust_Log-Optimal_Strategy_with_Reinforcement_Learning.pdf (677.77 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:学习的 Optimization Quantitative performance Traditional

沙发
nandehutu2022 在职认证  发表于 2022-6-10 01:32:13
具有强化学习的鲁棒对数优化策略Yifeng Guo XingYu Fu YuYan Shi MingWen Liu中山大学具有二次Taylor展开的传统目标函数。它避免了GLOS复杂的CDFestimation过程,从而抵抗了由估计误差引起的“蝴蝶效应”。此外,RLOS保留了GLOS的盈利能力,与GLOS相比,RLOS所涉及的优化问题在计算上更加实用。此外,我们将RLO与强化学习交易环境相结合,以做出全面的投资决策。RLOSRL的绩效结果验证了其盈利能力和稳定性。关键词:投资组合管理;数学金融学;人工智能信息论;对数最优策略;稳健性分析;强化学习;深度学习;卷积神经网络。1简介投资组合管理(PM),旨在解决理论和实践方面的平衡问题。行业提出的战略[11],将财富转化为表现最佳的资产;根据历史数据和预测,跟踪下一个交易期;元学习,结合了七个执行的集成投资政策;在我们的工作中,我们将重点放在后两种类型上,将模式匹配强化学习策略中的两种算法结合起来,形成最终的PM策略。源于信息论[1],通过选择最优投资组合来尝试收益率,是一种自然且最著名的DPM方法之一,其中出现了许多令人兴奋的结果[10,12,13]。在我们的工作中,我们将证明累积分布函数(CDF)的严格计算比LOS更实用。2具有强化学习的稳健对数优化策略引导虚拟投资组合经理以最大利润的方式进行交易。

藤椅
大多数88 在职认证  发表于 2022-6-10 01:32:15
我们称之为强化学习集成(RLOSRL)。RL的进展。2一般的对数最优策略方法,通过管理一组资产到选择期,而在GLOS的背景下,正式定义GLOS,然后我们将研究信息收益、贪婪和长期优势。2.1 GLOSdX的定义=(XXXd)Tb=(bbbd)xxxix在交易pexbbibithstrategy上设定的利润开盘价,强化学习投资组合经理的使命。在GLOS的背景下,投资组合管理者将B的预期对数率最大化*X方程式:b*十、∈ arg最大值∈BrX(b)(1)rX(b)=Elog(bTX)=Rlog(bTX)dF(x)b施加在b上的约束{Xi}ni=1{Xi}ni=1相同,不同时期没有相互依赖关系。不支持。2.2光泽度特性。2.2.1信息效益信息效益。假设我们现在按{Xi}的连续分布进行交易,ni=1将被违反b*Xriod。而这些信息也带来了以下信息。每个交易期的YXY=yF(X | Y=Y)。LetbT公司*X | Ybe具有强化学习组合权重向量的最优鲁棒对数最优策略,如:bT*X | Y∈ arg最大值∈BrX | Y(b)=arg maxb∈BZlog(bTx)dF(x | Y=Y)(2)返回定义为:VY=rX | Y(bT*X | Yx)- rX | Y(bT*Xx)(3)VYS满足了一些优雅的数学性质,这些性质为它提供了一些合理的约束。定理1V=E(VY)VY公司V满意:1)VY公司≥ 02) VY公司≤RfX | Y=Y(x)logfX | Y=Y(x)f(x)dx3)五、≤RRh(x,y)logh(x,y)f(x)g(y)dxdyfgx和y分别是x和y的节理密度函数。见附录中的证明。VY公司五、VRRh(x,y)logh(x,y)f(x)g(y)dxdy,这是nxAndy之间的互信息,一个经常出现的概念xyV=依赖意味着交易策略已检测到联合密度函数。WhenXYYtion理论[1]。

板凳
nandehutu2022 在职认证  发表于 2022-6-10 01:32:19
进一步解释本文的主要内容,并将这一途径的探索留给未来的研究。2.2.2贪婪和长期优势假设我们在一些连续交易中进行交易,pe{Xi}ni=1b*XA同情地认为最终总财富。n{bi}ni=1Sn=S∏ni=1bti使用光泽计算最终总财富*n=S∏ni=1b*提西。下一个定理指出了其他PM策略的优势。定理2 S*nis渐近优于概率为1的N。证明:见附录中的证明。3鲁棒对数优化策略给出了价格波动向量的CDFF(x),但在实践中,portF(x)实现GLOS是不可能的,他们需要从f(x)中估计f(x),优化表达式中的obRlog(bTx)dF(x)Xbrithmic运算在计算上是昂贵的。因此,我们提出了RLO,其中我们不需要tF(x)Rlog(bTx)dF(x)x平方变异系数。对于GLOS,它是鲁棒的,因为分配效用偏差的上界可以由投资组合权重向量的L范数和L范数控制∞-协方差矩阵估计量的偏差范数。4带强化学习的鲁棒对数优化策略3.1 GLOS的目标函数(分配效用)(1)。

报纸
何人来此 在职认证  发表于 2022-6-10 01:32:22
然而,optimizationX在实践中很难知道。近似Elog(bTX)的X|∑Taylor展开。是RLO的目标函数,如:M(b,u,∑)=log(bTu)-2(bTu)bT∑b(4)计算详见附录。M(b|∑)M(b|∑)不涉及x的分布函数,要估计的参数只是x的期望值和协方差,这远比GLOS中的目标函数更实用,需要估计F(x)。M(b|∑)收益方差”规则【9】。3.2 RLO的最优投资组合权重向量考虑RLO中的优化问题:bopt∈ arg最大值M(b,u,∑),s.t.b∈ 对于某些自然|∑ple,我们可以解析地求解bOptca,我们取b={b | bTe=1,bTu≥ c、 其中e=(1,1,…,1)T}。第一个约束来自投资组合权重向量的定义,第二个约束考虑了解决该优化问题的最小期望条件。我们在附录中提供了计算结果。从优化过程中,我们可以发现,opt|∑u的估计值∑偏离其真实值偏差。在下一节中,我们将证明RLO是稳健的,它提供了对合理估计误差的容忍度。3.3 RLOS^bopt∑^∑^∑的稳健性分析可能会导致所谓的“蝴蝶效应”。

地板
mingdashike22 在职认证  发表于 2022-6-10 01:32:25
因此,我们需要研究RLO的鲁棒性。我们首先给出两个合理的假设:1)E(^u)=^u估计。2) ithjth∑-^∑∑ijmaxi∑nj=1 |σij |≤M、 其中M是一个正常数。E(^boptT^u)=^boptTu大数定律,样本大小确定时e>0→ ∞P(|^boptT^u)-^boptTu|>e)→e>n∈ N+^b |^boptT^u-^boptTu|≤ enSimilar分析与2)相似,因此我们在此不再重复。M(^bopt^^^u∑)M(^boptu∑)RLO。定理3bTu≥ 在上述假设下,估算后RLO的偏差有一个上限|M(^bopt,^u,^∑)- M(^bopt,u,∑)|≤2c(n∑i=1 | bi |)maxi∑nj=1 |σij |(5)证明:见附录中的证明。c>∑ni=1 | bi |≤ c | M(^bopt^^^∑)- M(^bopt∑)|上界,我们添加一个额外的∑ni=1 | bi |≤ C在财务上输入参数C,这意味着禁止大额卖空。3.4实施RLOSSay我们现在在KTH交易期进行交易,为了实施RLO,投资组合经理需要通过强化学习来确定日志优化策略估计目标函数中涉及的参数:M(b,u,∑)=Log(bTu)-2(bTu)bT∑b(4)u∑xkkth周期。选择一组交易期,这些交易期之间的相似度为simkth^^∑相似,我们可以在其中了解交易期的背景。我们现在具体进入实施阶段。3.4.1市场背景的定义考虑到利润交易期的交易背景,我们将其定义为价格波动矩阵(i- n) th(一)-)交易周期。

7
大多数88 在职认证  发表于 2022-6-10 01:32:30
形式上,我们写为:背景(ith,n)=x1,(i-n) ···x1,(i-1).........x(m,1-n) ···x(m,(i-1))在背景超参数中,THASSET的x(a,t)定价为开盘价)更精确地控制了最大值,在实践中,我们使用多个定义同一交易周期的多个背景。背景(ithn)背景(jthn)XJ Xi的统计。3.4.2相似性和相似交易期选择的定义我们使用皮尔逊相关来定义交易期之间的相似性。形式上,我们写为:Similar(ith,jth,n)=corr*(背景(第i个,n),背景(第j个,n))校正*ρ相似(ithjthn)>ρithjthperiods相似,反之亦然。现在继续选择背景与kthtrading period相似的周期,它形成一个集合:S(k,n,ρ)={k- n≤ i<k | Sim ilar(ith,jth,n)>ρ}3.4.3 RLOSkthn{u(n)k}∑(n)k}Nn=1each{u(n)k,n∑(n)k}Nn=1,权重为w(n)的最优投资组合向量∈ R反映向量的性能,然后将其线性集成。此处的算法:算法1 RLOSInput:N,ρ,k,HistoricalPriceData;输出:^boptkkthtrading period;1: 对于n=2:n do2:构造S(k,n,ρ)3:if | S(k,n,ρ)|≤ 14: 续5:否则:6:u(n)k=平均值({Xi | i∈ S(k,n,ρ)})7:∑(n)k=Cov({Xi | i∈ S(k,n,ρ)})8:^bopt(n)k=arg max M(b,^u(n)k,^∑(n)k)9:w(n)=log(i∈S(k,n,ρ)^bopt(n)kXi)10:结束11:返回^boptk=(∑w(n)^bopt(n)k)/(∑w(n))6带强化学习的稳健日志优化策略4带强化学习的稳健日志优化策略交易代理与低信号噪声股票市场环境(t)相互作用。在此之前,代理从RLOS接收分析结果VT,并观察最近的历史数据。权重是指他(她)刚刚收到的交易的对数回报率。

8
kedemingshi 在职认证  发表于 2022-6-10 01:32:32
如果我们将上述决策过程的CNNθfθ表示为:(bpret,rpret)=fθ(st,vt)(6)在预测了最佳期初投资组合后,我们必须进行股票交易Bendt-1开始前。这里我们假设transactionbprettthtrading期间。我们还假设,在我们的工作中,交易费用为零,这是一种合理的策略,相对较低(每天一次,交易费用很高,在我们的案例中,对应关系和股价波动都很高。在金融中,发现非平稳时间序列很常见,这意味着金融数据的分布可能会随着时间的发展而变化[5]. 因此,为了适应不断变化的环境E(t)。为了训练我们的网络,我们定义损失函数如下:L(θ)=α(rpret- rtruet)- βboptt·log(bpret)- σrtruet+c | |θ| |(7)损失函数中的αβσc>项以及上述损失函数的细节将在第6.4节中讨论。SGDalgorithm与历史再体验机制。4.1预测RL交易者收到两个信息:VT,因此我们只讨论此处的形成。最近n个交易期的资产状况。STS考虑的交易环境是开盘、最高价、最低价和期限。形式上,stis ad×n×4张量whereenvironment。RL交易代理将SSTINT反馈给输出层之前的卷积特征映射张量。将预测的最优开箱港重量B和预测的交易周期对数回报率R分别计算出来。ure1。图1。

9
何人来此 在职认证  发表于 2022-6-10 01:32:35
由于以下两个原因,网络过滤器的拓扑结构都是一维的:1)人工智能交易员可以在不改变网络架构的情况下管理不同数量的股票。2) 由于CNN的共享权重体系结构,过滤器被训练为独立捕获一些公共资源。带强化学习的稳健对数优化策略4.2交易评估在设定第三个交易期结束时的期初投资组合权重后,我们可以在交易前评估初始投资组合权重的表现,然后通过计算对数收益率rtruet来训练神经网络。为了重述,我们再次编写公式:rtruet=log(bpretXt)(8)xt3.1.4.3节中介绍的培训为了重述,我们在这里再次编写损失函数:L(θ)=α(rpret- rtruet)- βboptt·log(bpret)- σrtruet+c | |θ| |(7)损失函数中的αβσc>项。现在我们解释每个终端细节:α(rpret- 网络预测对数交易周期之间的误差。-βboptt·log(bpret)期初投资组合权重预测和“跟随赢家”期初投资组合权重BOPTTBOPT(t,i)=bopt(t,j)=(j 6=价格波动向量xt中的i)X(t,i)。wename bopttas“最优”投资组合的原因是:boptt∈ arg max log(b·Xt)bpretboptt实现更好的对数回报率rtruet。-σrtruet:该项反映了设置期初投资组合权重的真正对数稳定回报,即使损失函数L(θ)最小化。c | |θ| |通过L-范数规则进行过拟合。培训我们的网络以更新最新的市场信息。

10
能者818 在职认证  发表于 2022-6-10 01:32:38
这里,我们使用动量的历史再经验来最小化这些记录上的损失函数,即我们更新参数θ如下:θ:=θ- l·用L(θ)(9)L>对Relu[8]进行优化初始化,以提高模型的性能。由于金融市场中的数据分布通常是非平稳的,所以要确定最近样本的大小。tthξth<ξ≤ t(t- ξ) 参数λ>0,即:(t- ξ) ~ P(λ)5回测我们使用Nave Average,跟随获胜者并与提议的RLO和RLOSRL竞争。回测结果表明我们的策略具有优势。5.1 RLOSN(每个交易期的历史背景的最大长度)到20和ρ(标准交易和长期交易)的回测。我们可以清楚地看到8带强化学习轴的稳健对数优化策略代表总财富。(a)(b)图2。500天交易(RLO)(a)(b)图3。1000天交易(RLO)(a)(b)图4。1500天交易(RLOS)5.2 RLOSRL的回测与RLOSRL相似,因为RLOSOR的输入之一是RLOS的分析结果,而在所有回测中。(a) (b)图5。500天交易(RLOSRL)参数值λ:泊松参数50r:Momontum 0.9α10-4β 10-2σ 10-2c 10-4表1。超参数数百步学习率0-500 10-20-1000 10-30-1500 10-4表2。学习率衰减(a)(b)图6。1000天交易(RLOSRL)(a)(b)图7。1500天交易(RLOSRL)6使用泰勒展开得出GLOS结论。通过强化学习,我们进一步完善了稳健的对数优化策略。我们为未来的探索留下了一些可能的途径:o市场。比如期货、货币、债券等。o频繁交易。oPM策略。o考虑交易费用。o模型更精确。o精确逼近GLOSmore的目标函数。参考文献【1】Cover,T.M.和Thomas,J.A.,2012年。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-27 05:01