楼主: mingdashike22
903 11

[量化金融] 基于强化学习的鲁棒对数优化策略 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-6-10 01:32:41
ElementscouverA。,Sifre,L.,Van Den Driessche,G.,Schrittwieser,nature,529(7587),第484-489页。Antonoglou,I.、Huang,A.、Guez,A.、Hubert,T.在没有人类知识的情况下掌握围棋。《自然》,550(7676),第354页。Riedmiller,M.,Fidjeland,A.K.,Ostrovski,G.andPetersen,S.,2015年。通过深度强化学习实现人的水平控制。《自然》,518(7540),第529页。大多数机器学习基金都失败了。机器学习国际会议(第448-456页)。807-814).IEEE计算机视觉国际会议记录(第1026-1034页)。[9] Markowitz,H.,1952年。投资组合选择。《金融杂志》,7(1),第77-91页。[10] Algoet,P.H.和Cover,T.M.,2011年。AsympKELLY资本增长投资标准:理论与实践(第157-179页)。(CSUR),46(3),第35页。[12] Ormos,M.和Urbn,A.,2013年。性能PP。1587-1597.投资策略。布拉格随机科学(第719-727页)。学习arXiv预印本arXiv:1612.01277。《应用》,30(3),pp.543-552.10带强化学习的稳健对数优化策略附录A定理1Lemma 1 E的证明(对数(φ(x)))≤ 对数(E(φ(x))),r、 v,x≥ 0,φ(x)>0。证明:由于对数函数满足log(λx+(1- λ) x)≥ λlog(x)+(1- λ) 对数(x),λ∈ [0,1]表明它是一个凹函数。设λ=x-xx号-x、 当x∈ [x,x]。那么我们有log(x)≥x个-xx号-xlog(x)+x-xx号-xlog(x)。不等式等价于tox- x[对数(x)- 日志(x)]≥x个- x[对数(x)- 对数(x)]让x→ x、 我们有(x- x) 日志(x)≥ 日志(x)- 对数(x)Let x=∑mi=1λixi。

12
kedemingshi 在职认证  发表于 2022-6-10 01:32:44
什么时候∑mi=1λi=1,λi>0。对于每个i,我们有λi(xi- x) 日志(x)≥ λi[对数(xi)- 对数(x)]Thusm∑i=1λi(xi- x) 日志(x)≥m级∑i=1λi[对数(xi)- log(x)]SinceE(log(φ(x))=Zlog(φ(x))dF(x)=limt→∞∞∑k=1log(φ(xk))(F(kn)- F(k- 1n))log(E(φ(x))=log(Zφ(x)dF(x))=log(limt→∞∞∑k=1φ(xk)(F(kn)- F(k- 1n),且对数函数是连续的,设λk=F(kn)- F(k-1n),m→ ∞, 然后我们有zlog(φ(x))dF(x)≤ log(Zφ(x)dF(x))So E(log(φ(x)))≤ 根据需要记录(E(φ(x)))。引理2如果b*是最佳投资组合和EbTXb*TXexists,我们有EbTXb*德克萨斯州≤ 1,对于任何其他投资组合,b.proof w(bλF)=Rlog(bTλx)dF(x)bλ=λb+(- λ) b类*bλ=我们有b=b*.根据定义,我们有最大值W(b,F)=W(b*, F) =最大值B∈AZlog(bTx)dF(x)我们说W(b,F)≥ W(黑色,F),k∈ [0,1]和dw(bλ,F)dλ≤ λ时为0→ 根据导数的定义为0。具有强化学习的鲁棒对数最优策略,即limλ→0+dW(bλ,F)dλ=limλ→0+λ[W(bλ,F)- W(b,F)]=limλ→0+λ[E(对数(λbTX)+(1- λ) b类*TX))- E(对数(b*TX))]=E(limλ→0+λlog(λbTXb*TX+1- λ)) (*)= E(limλ→0+λlog(1+λ(bTXb*德克萨斯州- 1) ))=E(bTXb*德克萨斯州- 1) (**)≤ 0等式(*)可参考[5],等式(**)是根据L\'Hospital规则得出的。然后我们将给出定理1的证明。定理1的证明:VY=rX | Y(b)*TX | Yx)- rX | Y(b*TXx)=Zlog(b*TX | Yx)dF(x | Y=Y)-Zlog(b*TXx)dF(x | Y=Y)=Zlogb*TX | Yxb*TXxdF(x | Y=Y)=Zlog(b*TX | Yxb*TXx·f(x)fx | Y=Y(x))dF(x | Y=Y)+Zlogf(x)fx | Y=Y(x)dF(x | Y=Y)=Zlog(b*TX | Yxb*TXx·f(x)fx | Y=Y(x))dF(x | Y=Y)+Zfx | Y=Y(x)logf(x)fx | Y=Y(x)dx≤ logZb公司*TX | Yxb*TXx·f(x)fx | Y=Y(x)dF(x | Y=Y)+Zfx | Y=Y(x)logf(x)fx | Y=Y(x)dx(le mma1)=logZb*TX | Yxb*TXxdF(x)+Zfx | Y=Y(x)logf(x)fx | Y=Y(x)dx≤ log1+Zfx | Y=Y(x)logf(x)fx | Y=Y(x)dx(le mma2)=Zfx | Y=Y(x)logf(x)fx | Y=Y(x)dxV=E(VY)VYY将证明Valso有一个上限。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-11 21:07