楼主: 能者818
935 24

[量化金融] 在线参数修正的最优交易 [推广有奖]

11
何人来此 在职认证  发表于 2022-5-11 05:59:50
从(2.9)中可以看出,Mz,m,φ相对于m随时间保持绝对连续。因此,先验分布应该有一个更大的支持度来包含真实值,否则它也不会被后验分布看到。在实践中,我们可以简单地在一个矩形上定义一个均匀分布,我们确信真正的参数属于这个矩形。如果只对粗略近似感兴趣,但希望将计算时间最小化,可以简单地指定几个低/中/高值,并集中支持这些值(即从diracmass的组合开始)。备注2.2。为了便于以后使用,请注意,上面给出了给定Fz,m,φτi:P[(Zz,φθφi,Mz,m,φθφi)的联合条件分布(Zz,φθφi,Mz,m,φθφi)∈ B×D | Fz,m,φτφi-] = k(B×D | Zz,φτφi)-, Mz,mφτφi-, 其中k(B×D | zo,mo,ao):=ZUZBD(M(mo;z,zo,ao))q(z | zo,ao,u)dQ(z | z,a)dmo(u)∈ Z和m∈ M、 控制器的目标是使增益函数φ的期望值最大化∈ Φz,m7→ Gz,m(φ):=g(Zz,φT[φ]、Mz,m,φT[φ]、ν,),其中T[φ]是T:T[φ]:=sup{θφi:i之后最后一个动作的结束≥ 1,τφi≤ T}∨ T.请注意,我们并不是在T上看Zz,φ的值,而是在T[φ]上看,它要么是T,要么是T之前发送的最后一笔交易的结束。这是由机器人的使用引起的:如果它正在运行,我们不想在T处停止它,而是宁愿等到算法结束。通过目标函数g,当T[φ]严格大于T时,可以施加惩罚,这一点得到了补偿。还请注意,终端奖励取决于参数Γ。

12
kedemingshi 在职认证  发表于 2022-5-11 05:59:53
其动机是申请最佳清算,最终可能会发送一个最终的largeorder,立即清算剩余的股份。如前所述,增益可能不仅取决于原始时空状态过程Zz,φT[φ]的值,还取决于Mz,m,φT[φ],以模拟这样一个事实,即我们也对最后时刻对Γ的估计精度感兴趣。还要注意的是,可以在不增加额外困难的情况下增加运行成本,实际上可以将其合并到stateprocess Zz,φ中。假设g是可测的,并且(为了简单起见)有界于Z×M×U×E。给定φ∈ Φz,m,预期报酬isJ(z,m;φ):=Em[Gz,m(φ)],和v(z,m):=supφ∈Φz,mJ(z,m;φ)1{t≤T}+1{T>T}Em[g(z,m,ν,)] (2.11)是相应的值函数。注意,v通过容许控制Φz和期望算子Em的集合依赖于m,即使g不依赖于Mz,m,φT[φ]。3值函数表征和数值逼近3。1动态规划拟变分方程本节的目的是解释如何推导最优期望增益的pde特征。和往常一样,它应该与动态规划原理有关。在我们的设置中,它应该如下所示:给定z=(t,x)∈ Z和m∈ M、 thenv(z,M)=supφ∈Φz,mEm[v(Zz,φθφ,Mz,m,φθφ)],(3.1)用于所有收集(θφ,φ∈ Fz,m,φ的Φz,m)-停车时间,数值在[t,2T]中,θφ∈ Nφ∩ [t,t[φ]]Pm- a、 回想一下(2.2)中Nφ的定义。让我们来评论一下。首先,应该限制停车时间,以便∈ Nφ。原因是在Nφ之外不能产生新的脉冲,每个间隔[τφi,θφi)都是一个晚周期。

13
可人4 在职认证  发表于 2022-5-11 05:59:57
第二,终端增益在T[φ]处进行评估,这通常不同于T。因此,θφ仅以T[φ]为界。我们继续我们的讨论,假设(3.1)成立,并且v是完全光滑的。让我们来表示Zz,o不发送订单时状态过程的动态。那么,上面的公式特别暗示了(z,m)≥ Em[v(Zz,ot+h,m)]0<h≤ T- t、 这对应于在[t,t+h]上不产生脉冲的控制的次优性。应用它的引理,除以h,让h为0,我们得到-Lv(z,m)≥ 0英寸,其中:英寸=tа+hu,Dаi+Tr[σ>Dа]。另一方面,根据(3.1)和备注2.2,V(z,m)≥ 苏帕∈AEm[v(z[z,a,γ,], M(M;z[z,a,ν,], z、 a)]=Kv(z,m),其中kа:=supa∈AZ~n(z,m)dk(z,m |·,a)。(3.2)这对应于立即发送订单的次优性。至于时间边界条件,与上述相同的推理隐含了v(T,·)≥ KTg和v(T,·)≥ Kv(T,·),其中kTg(·,m)=ZUZEg(·,m,u,e)dP(e) dm(u)。(3.3)因此,v应通过最优性求解拟变分方程{-L k,а- [0,T)×Rd×M(3.4)min{- KTg,~n- 在{T}×Rd×M.(3.5)上K~n}=0为了确保上述算子是连续的,我们假设,在R+×Rd×M上,对于所有上(下)半连续有界函数,KTg是连续的,K~n是上(下)半连续的。(3.6)最后,我们假设比较适用于(3.4)-(3.5)。[4]中提供了一个有效条件。假设3.1。设U(resp.V)是(3.4)-(3.5)的上(resp.V)半连续有界粘性子(resp.super)解。进一步假设≤ V on(T,∞)那么,U≤ 我们现在可以陈述[4]的主要结果。定理3.1([4])。让假设3.1保持不变。

14
mingdashike22 在职认证  发表于 2022-5-11 06:00:01
然后,v在Z×M上是连续的,并且是(3.4)-(3.5)的唯一有界粘性解。3.2数值模式的一个例子当假设3.1的比较结果成立时,可以很容易地导出(3.4)-(3.5)的收敛有限差分模式。这里我们考虑一个基于[11,12]的简单显式方案。我们给hbe一个时间离散化步长,使T/his为整数,并设置Th:={thj:=jh,j≤ T/h}。用矩形上的空间步长离散空间RDI[-c、 c]d,在每个方向上包含nxH点。相应的有限集用Xhc表示。一阶导数t~n和(φ/xi)我≤使用标准上风近似值进行近似:ht~n(t,x,m):=h-1(φ(t+h,x,m)- ~n(t,x,m))hh,i~n(t,x,m):=H-1(φ(t+h,x+eih,m)- 如果ui(x)≥ 0h-1(φ(t,x,m)- ν(t+h,x)- eih,m)如果ui(x)<0,其中ei是Rd的第i个单位向量。对于二阶项,我们使用每个点x∈ Rd可以近似为加权组合X=Xx∈由Rdit belongstoo的划分形成的立方体的角Ch(x)上的点xlying的Ch(x)xω(x | x)。然后,给定另一个小参数h>0,我们将Tr[σ(x)σ(x)>D~n(t,x,m)]近似为定义为(hd)的Thh,h[~n](t,x,m)-1dXi=1[~n]h(t+h,x+phσi(x),m)+[~n]h(t+h,x-phσi(x),m)- 2小时-其中σi是σ的第i列,而[ν]h(t,x,m):=Xx∈Ch(x)ω(x | x)~n([t]h,x,m)与[t]h:=min[t,2T]∩Th∪ [T,2T],是φ的分段线性近似值。

15
能者818 在职认证  发表于 2022-5-11 06:00:04
如果σ的第一行σ1·不等于0,可以使用通常的更简单近似值(h)-1kσ1·k~n(t+h,x+phe,m)+~n(t+h,x)-phe,m)- 2(h)-1kσ1·k~n(t,x,m)。类似地,我们近似地表示K K byKh,h K(t,x,m):=supa∈AZ[~n]h(最大(t+h,t),x,m)dk(t,x,m | t,x,m,a)。让h:=(h,h,h)和设置lh~n=htИ+Xi≤duihh,i~n+Thh,h[~n],(3.7)我们的数值格式包括solvingmin-左а,а- Kh~n= 0在(Th\\{T})×上Xhc)×M,(3.8)min{~n- KTg,~n- 在{T}×(XhcXhc)×M,(3.9)~n- KTg:=0 on([0,T]×上Xhc×M)∪ ((T,2T)×Rd×M)。(3.10)我们在这里指定了一个精确的边界条件Xhcbut可使用任何其他(有界)边界条件。最后,通过设置vch=[vch]hon[0,T]×Rd×M,我们将vchto扩展到整个空间。这个方案总是收敛为(h,h/h,h/h)→ 0和c→ ∞.提议3.1。让vchdenote加入(3.8)-(3.9)-(3.10)的溶液。如果假设3.1成立,那么vch→ v as(h,h/h,h/h)→ 0然后是c→ ∞.证据使用下面的引理3.1,可以很容易地检查我们的方案是否满足[6,定理2.1]的条件。特别是| vch |≤ sup|g|∞. 然后,收敛性与[6,定理2.1]中的参数相同,必须用引理3替换他们的断言(2.7)。2如下所述。备注3.1。我们在上面没有讨论M的离散近似问题。应用程序通常基于参数化的族M={Mθ,θ∈ Θ},表示有限维空间的一个集合。然后,我们可以通过一系列有限集进一步近似Θ,以建立一个数值格式。类似地,在实践中需要对控制值集进行近似。如果相应的近似序列是稠密的,那么数值格式的收敛性仍然成立。我们用在上述证明中使用的技术引理来结束本节。引理3.1。

16
能者818 在职认证  发表于 2022-5-11 06:00:07
如果(联合国)≥1是Z×M和(zn,mn)n上的有界函数序列≥1是以Z×M为单位收敛到(Z)的序列o, Mo), thenlim infn→ ∞(h,h)→ (0,0)Kh,hun(zn,mn)≥ 库o(z)o, Mo) , 你在哪里o:= 林恩芬→ ∞(z,m)→ ·un(z,m)和Lim supn→ ∞(h,h)→ (0,0)Kh,hun(zn,mn)≤ 库o(z)o, Mo) , 你在哪里o:= 林尚→ ∞(z,m)→ ·un(z,m)。证据我们首先重写kh,hun(zn,mn)=supa∈AZun,h(z,m)dk(z,m | zn,mn,a)(3.11),其中un,h(z,m):=[un]h(max(tn+h,t),x,m)。让我们联合起来o,Ho是infn的下半连续斜坡≥No,H≤Ho从(3.11)开始,我们得到,n≥ Noh≤ Ho,Kun,h(锌,锰)≥ 坤o,Ho(zn,mn),通过(3.6),达到极限inf as(n,h)→ (+∞, 0)导程到IM inf(n,h)→(+∞,0)Kun,h(锌,锰)≥ 坤o,Ho(z)o, Mo).此外,联合国o,Ho↑ Uo切中要害。然后通过单调收敛得到所需的结果。引理3.2。让我们≥1是Z×M和deneu上的下半连续映射序列o:= lim-inf(z,m,n)→(·,∞)un(z,m)在z×m上。假设uo是局部有界的。设φbea连续映射并假设(zo, Mo) 是u的严格极小点o- 在Z×M上。然后,我们可以找到[0,T]×Rd的有界开集B和序列(zk,mk,nk)n≥1.B×M×N使得nk→ ∞, (zk,mk)是unk的最小点- 在B×M和(zk,mk,unk(zk,mk))上→ (左宗棠)o, Uo(佐,莫)。证据由于M被假定为局部紧的,因此必须重复[5,p80,引理证明6.1]中的论点。3.3ε-最优控制的构造仍需解释如何推导最优策略。在时间空间网格的每个点(t,x)和每个先前的m,计算(^`(t,x,m),^b(t,x,m))∈ arg maxZvch(z,m)dk(z,m|(t,x),m,(`,b)),(`,b)∈ A..如果vch(t,x,m)等于上述最大值,则我们播放控件(^`(t,x,m),^b(t,x,m)),否则我们等待下一个时间步。这是通常的哲学:只有当这增加了预期收益时,我们才会对系统采取行动。

17
kedemingshi 在职认证  发表于 2022-5-11 06:00:10
如前所述,在这里,收益不仅应该被视为对当前未来回报的改进,还可以被视为对我们先前的收益的改进,这将导致更好的未来回报。这就产生了一个马尔可夫控制,它对于与我们的数值格式相关的离散时间问题是最优的,对于原始控制问题是渐近最优的。我们将在下一节介绍的玩具示例中使用此算法。4最佳交易的应用本节专门研究两个应用实例。每一个都对应一个理想化的模型,这里的目的不是提出一个好的模型,而是展示我们方法的灵活性,并从数值上说明我们算法的行为。4.1积极订单的直接影响我们首先考虑一个模型,其中考虑发送到市场的每个订单的影响。这意味着αi表示在时间τi,i=0时每i购买的股份数量。这对应于A={0}×B,其中B R+是一组可容许阶数的紧集。因此,我们可以在下面的代码中识别A到B,我们只为A=(0,B)写B∈ A和βiforαi=(`i,βi)。我们的模型可以看作是一个调度模型,也可以看作是一个非流动市场的模型。X的FirstComponent代表股票价格。我们考虑一个简单的线性影响:当βi的大小出现在τi时,股票价格会跳Xθi=Xτi-+ βi(γ+i) /2在哪种情况下∈ R是未知的线性冲击参数(i) 我≥1是一系列独立的噪声,遵循标准偏差σ的中心高斯分布.

18
kedemingshi 在职认证  发表于 2022-5-11 06:00:13
X的动态系数1/2代表50%的即时恢复力。它根据两种交易之间的布朗差异演变,并具有剩余弹性效应:dXt=σdWt+dXt和dXt=-ρXtdt,(4.1),其中σ,ρ>0和X∈ R是常数。过程X表示Xdue向非即时恢复力的漂移,X=0。当交易发生时,它根据toXθi=Xτi跳跃-+ βi(γ+i) /2。我们称之为传播。这是偏离未受影响动态的一部分。描述总成本的第三个组成部分演变为asXθi=Xτi-+ Xτi-βi+(γ+i) βi.最后,最后一个成分用于跟踪累计购买的股票数量:Xθi=Xτi-+ βi.我们对购买N股的成本感兴趣,并将标准最大化-Em[eηL(XT,ν)∧ C] 其中η>0是一个风险规避参数,C>0,and l(XT,ν):=XT+XT(N- XT)+(ν+)(N)- XT)表示在T将购买的股份总数设置为N后的总成本。如果Γ的先验定律m是高斯分布,那么q(·t,x,b,u)是关于todQ(x | t,x,b)=dxdδx+bx(x)dδx+b(x)dδx+(x)的高斯密度-x) (x)和转换映射m(m;t,x,t,x,b)[C]=RCq(x | t,x,b,u)dm(u)RRq(x | t,x,b,u)dm(u),将高斯分布映射为高斯分布,这在实践中使我们能够将m约束为高斯分布集。更准确地说,如果(mü(τi-), σΓ(τi)-)) 是Mτi的平均值和标准偏差-, 然后,与后验分布MθiareσΓ(θi)=1{σΓ(τi)相对应的值-)6=0}σΓ(τi)-)+σ-,m(θi)=m(τi-)1{σν(τi)-)=0}+Xθi- Xτi-σ+mü(τi)-)σΓ(τi)-){σν(τi)-)6=0}.与上一节的一般结果相比,我们增加了一个边界条件v(t,x,x,N,x)=1,并将Xto的域限制为{0,…,N}。

19
可人4 在职认证  发表于 2022-5-11 06:00:16
因为这个参数是离散的,所以它不会改变我们一般结果的性质。还要注意的是,映射ψ(t,x,m)=N- 定义在[0,T]×R×{0,…,N}×R×上的xde实际上满足了[4]中提供的条件,以确保假设3.1成立。我们现在讨论一个数值例子。我们考虑30秒的交易和N=25股的购买。我们取η=1,x=100,σ=0.4x,这相当于年波动率为40%。交易周期分为1秒的时间间隔。β阶的大小在{1,2,3,4,5}中。我们取σε=10-4和ρ,如果没有发送新订单,则spreadXis每秒除以3。我们从一个由高斯分布给出的先验知识开始,该分布的平均值为mΓ(0),标准偏差为σv(0)。最后,我们取C=10,这使得这个阈值参数基本上是有效的,同时仍然确保终端条件是有界的。在图1中,我们绘制了σΓ(0)=5.10的最佳策略-4和mv(0)=5.10-2根据(X,X)。显然,差价水平会产生重大影响:当差价水平较大时,最好等到差价水平降低后再发送新订单。这也可以在图2中观察到,图2提供了与初始先验(mv(0)=2.10)相对应的模拟路径-2, συ(0) =-3) :15秒后,算法在发送命令和不执行任何操作之间交替进行,即等待在下一时间步减小排列。

20
nandehutu2022 在职认证  发表于 2022-5-11 06:00:19
在右上角的图表中,我们还可以观察到,初始先验的低平均值与零初始弹性相结合,首先会导致发送一个大小为3的订单,然后先验的平均值会迅速调整到更高的水平,算法会立即变慢。图1:β在时间0s(顶部)、15s(左侧)和25s(右侧)的(X,X)演化,对于(mγ,σγ)=(5.10-2, 5.10-4).图2:β(左上角)、冲击前(圆圈)和冲击后(三角形)的价格(右上角)、m~n(左下角)、σν(右下角)随时间的变化(以秒为单位)。Γ的真值是5。10-2.x轴:以秒为单位的时间。现在让我们考虑ρ=0的情况,即没有动态弹性,交易周期为60秒,N=50。在图3中,我们根据已交易股份的数量Xof和不同时间的先验平均参数Γ提供了最优策略(交易股份的数量)。不出所料,随着优先股的平均值降低,剩余可购买股份的数量增加,该算法更具攻击性。它在时间上相当稳定(比较t=0和t=30),直到最后被迫加速以避免巨大的最终影响成本。与ρ>0的情况相比,它也更具攻击性。假设:我们不能再利用弹性项X的减少,没有理由等待。在图4中,我们提供了(X,α,mγ,σγ)的模拟路径,显示了未知系数γ上的先验知识如何适应不断变化的市场条件。红色虚线和圆圈对应于相同的布朗运动路径和相同的已实现噪声(i) 我≥1为黑色实线和十字,但真实参数从5.10更改为-2到5.10-4 5秒后。在冲击之后,它会很快变得更具攻击性,因为之前的版本会适应新的小级别冲击。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-28 16:54