楼主: mingdashike22
1693 47

[量化金融] 微观结构极限订单模型中的算法交易 [推广有奖]

11
能者818 在职认证  发表于 2022-5-31 11:33:34
我们有i0=0。每次订单到达后,她都可以发送新的限额订单(请参见右上角的操作)、取消一些头寸(请参见左下角的虚线叉),或者保持订单不变。用(Tn)n表示∈订单簿的跳转时间顺序。我们用A表示,DPMDP集代表分段确定性马尔可夫决策过程,是指在(随机)跳跃之间具有确定性动态的控制过程。可接受的策略,定义为可预测的过程rat,rbtt型≤t确认参与者连续两次收到的订单之间的控制是恒定的,并且做市商的订单不会跨越价差。这些条件读数为:o对于所有n∈ Nrat,rbt∈ {1,…,K}M×{1,…,K}上的马尔常数Tn,Tn+1o ra公司*, rb型*≥ i0其中,对于每个向量a:a*= 最小1≤我≤K{ais.t.ai6=-1} ;和:i0=argmin1≤我≤Kais。t、 ai>0. 控件是“M做市商”订单在订单簿中的位置的双向量。按照惯例,我们在续集rai(t)=-1如果第i个做市商的订单未列入订单簿。2.2.2。受控订单簿。由做市商控制的订单簿通过以下状态流程Z:Zt进行完整描述:=Xt、Yt、at、bt、nat、nbt、pat、pbt、rat、rbt,其中,在时间t时:oXT是做市商在零利息账户上持有的现金。oYtis是做市商的库存,即做市商持有的(签名)股份数量。o帕蒂是要价,即一般市场参与者愿意出售股票的最低价。ob是出价,即一般市场参与者愿意购买股票的最高价格。oat=(a(t),aK(t))(分别为bt=(b(t),bK(t)))描述了ask(resp.bid)端:i∈{1。

12
mingdashike22 在职认证  发表于 2022-5-31 11:33:38
,K},ai(t)是所有一般市场参与者的销售订单的总和,这些订单与买入(或卖出)价格相差很远rat(resp.rat)描述做市商在询价(resp.bid)方面的订单:对于i∈ {1,…,\'M},rat(i)是第i个做市商的卖出(分别买入)指令和买入(分别卖出)价格之间的滴答数。按照惯例,我们将rat(i)=-1(分别为rbt(i)=-1) 如果做市商的第i个卖出(或买入)指令未列入订单簿。结果(i),rbt(i)∈ {1,…,K}∪ {-1} .onat(代表nbt)描述做市商的订单在ask(代表bid)方面的排名。对于i∈ {1,…,M},nat(i)∈-1|a |+(R)M(分别为nbt(i)∈-1|b |+(R)米) 是造市商在队列中的第i个卖出(或买入)订单的排名。按照惯例,我们假设nat(i)=-1(分别为nbt(i)=-1) 如果做市商的第i个卖出(或买入)指令未列入订单簿。3、做市问题介绍。理论分辨率。3.1。做市问题的定义和价值函数的适定性我们用V表示以下做市问题的价值函数:V(t,z)=supα∈AEαt,zZTtf公司αs,Zsds+gZT公司, (t,z)∈ [0,T]×E,(3.1),其中:oA是第2.2.1节定义的可接受策略集。of和g分别是瞬时和终端奖励函数Eαt,zs代表Zt=z和策略α=(αs)t条件下的期望≤s<t后接[t,t]。示例3.1终端报酬g可定义为做市商的终端财富函数和库存惩罚期限之和,即z 7→ x+L(y)- ηy其中L是库存立即清算所得的金额。

13
kedemingshi 在职认证  发表于 2022-5-31 11:33:41
我们提醒您,z代表订单状态;ε是LOB的刻度大小;x是市场制造商无风险账户的价值;η是做市商的惩罚参数;在这里,我们提醒各位,做市商(签字)的库存量是多少。连续奖励f可以代表对库存期限的处罚:f(z):=-γy,γ>0。我们将在奖励上假设以下条件,以确保市场决策问题的适当性。(Hrewards)综合运行报酬的期望是一致上界的w.r.t。A中的策略,即supα∈AEαt,zZTtf+(Zs,αs)ds< +∞持有;其中,对于所有状态z和动作a,我们表示f+(z,a):=最大值(f(z,a),0)。此外,终点奖赏g(ZT)与时间T之前的事件数(以nti表示)最多呈线性关系,即存在一个常数c>0,如g(ZT)≤ cNT,a.s。。备注3.1在假设(Hcontrol)下,当g被定义为做市商的财富加上库存惩罚时,假设(Hrewards)成立。特别是g(ZT)≤NT'M,其中'M是做市商可以发送的最大订单数,这是因为做市商可以获得的最佳利润是当他们的买入(或卖出)限价订单全部执行完毕,然后价格继续向右(或向左)移动。因此,(Hrewards)的第二个条件在c=(R)M时成立。下面的引理3.1解决了控制问题的适定性。引理3.1在(Hrewards)和(Hcontrol)下,很好地定义了值函数,即supα∈AEαt,zg(ZT)+ZTtfαs,Zsds公司< +∞,其中,如前所述,Eαt,z[.]表示由事件{Zt=z}条件化的期望,假设策略α∈ [t,t]后面跟着A。L定义如下:L(z)=P-1k=1ak(pa+k)+ (y)- 一- ... - 一-1) (pa+) 如果y<0-P-1k=1黑色(pb- k)+ (y+b+。。。

14
大多数88 在职认证  发表于 2022-5-31 11:33:45
+b类-1) (pb- ) 如果y>00,如果y=0,对于所有z=x、 y、a、b、na、nb、pa、pb、ra、rb, 我们定义了: :=(最小值jPji=1ai>-y如果y<0分钟jPji=1 | bi |>y如果y>0。证据用(Nt)t表示截至时间t的所有订单到达的总和。在(Hrewards)下,wecan界限Eαt,zhRTtfαs,Zsds+g(ZT)i,与策略α相关的时间t的奖励函数∈ A、 如下:Eαt,zZTtf(αs,Zs)ds+g(ZT)≤ supα∈AEαt,z[g(ZT)]+supα∈AEαZTtf+(Zs,αs)ds≤ csupα∈AEαt,0[NT]+supα∈AEαt,zZTtf+(Zs,αs)ds, (3.2)其中,对于所有一般过程M和所有M∈ E、 Eαt,m【MT】代表MT=m的预期条件,并假设做市商遵循策略α∈ A英寸【t,t】。让我们证明(3.2)的r.h.s.中的第一项是有界的。一方面,我们有:Eαt,0[NT]≤ kλk∞中兴通讯(| a | t+| b | t)dt,(3.3)其中kλk∞:= λL+λC+λMis是Nt强度率的一个界。另一方面,存在一个常数c>0,使得d(| a |+| b |)t≤ CDL使:Eαt,| a |+| b |[| a | t+| b | t]≤ |a |+| b |+cRtE[| a | s+| b | s]ds。应用Gronwall不等式,我们得到:Eαt,| a |+| b |[| a | t+| b | t]≤ (| a |+| b |)等。(3.4)将(3.4)插入(3.3)最终导致:Eαt,0【NT】≤ cecTwit cand c>0,不依赖于α,这证明了(3.2)的r.h.s.中的第一项是有界的。此外,其在(3.2)的r.h.s.中的第二项在(Hrewards)下有界。因此,相应的泛函在α中一致有界,这证明了所考虑的市场决策问题的值函数定义良好。3.2。

15
nandehutu2022 在职认证  发表于 2022-5-31 11:33:48
Markov决策过程做市问题的表述在本节中,我们首先将做市问题重新表述为Markov决策过程(MDP),然后将值函数描述为Bellman方程的解。让我们表示(Tn)是市场/限制/取消订单到达市场的递增顺序;设Zn:=φa(ZTn)(ZTn),其中φa(z)∈ E是订单在时间t的状态,例如Tn<t<Tn+1,假设ZTn=z,并且假设市场制定者在时间Tn选择了策略a。让我们考虑马尔可夫决策过程(Tn,Zn)n∈N、 其特征是以下信息[0,T]×E |{z}状态空间,Az |{z}做市商控制,λ|{z}跳跃强度,Q |{z}转换核,r |{z}回归,其中:o[0,T]×E是时间连续受控过程(Tn,Zn)N的状态空间∈NE:=R×N×NK×NK×N'M×N'M×N'M×N'M×R×R是(Zt)的状态空间。对于z∈ E、 z=x、 y、a、b、na、nb、ra、rb、pa、pb其中:x为做市商持有的现金,y为做市商的存货;a和b,在第2.2.2节中介绍。代表除做市商以外的所有参与者在订单簿的买卖双方的订单;na(resp.nb)是做市商在队列中的卖出(resp.buy)订单排名的维度向量;ra(resp.rb)是M维向量,表示M做市商的卖出(resp.buy)订单来自买入(resp.ask)价格;pa(分别为pb)是要价(分别为投标价)。oAz,对于每个状态z∈ E、 是指当订单簿处于z状态时,允许采取的行动(即市场庄家可以采取的行动):Az=nra,rb∈ {1,…,K}M×{1,…,K}Mrb型*, ra公司*≥ i0o,我们定义c*= 最小1≤我≤K{ci | ci6=-1} c0=argmin1≤我≤c的K{ci>0}∈ 不适用。

16
可人4 在职认证  发表于 2022-5-31 11:33:51
我们重申,这一条件意味着做市商不得跨越价差。oλ是受控过程的强度(Zt),读数为:λ(z):=λM+(z)+λM-(z) +X1≤j≤KλL+j(z)+X1≤j≤KλL-j(z)+X1≤j≤KλC+j(z)+X1≤j≤KλC-j(z)。观察λ并不取决于做市商选择的策略α,因为我们假设一般参与者不会“看到”订单簿中做市商的订单。虽然我们写z作为订单过程强度的参数,但它不能依赖于后者的任何受控组件变量。

17
能者818 在职认证  发表于 2022-5-31 11:33:55
为了简化,读者可以假设强度仅取决于向量a和b。oQ是MDP的过渡内核,定义如下:QB×C | t,z,α:= λ(z)ZT-te公司-λ(z)sB(t+s)QC |φα(z),αds+e-λ(z)(T-t) t型∈B、 z∈C、 (3.5)对于所有Borelian集合B R+和C E、 对于所有(t,z)∈ [0,T]×E,对于所有α∈ A、 其中,Qi是(Zt)的转换核,对于所有状态z定义为:Qz | z,u=λM+(z)λ(z)如果z=eM+(φu(z))。。。λC+(z)λ(z),如果z=eC+K(φu(z)),其中φu(z)是作出决策u时受控订单簿的新状态,以及决策前订单簿处于状态z时的新状态;eM+(z)是订单簿在收到买方市场订单后的新状态,因为它在跳跃之前处于z状态;eC±i(z)是订单簿在收到来自一般市场参与者的取消订单后的新状态,考虑到订单处于z状态,该订单位于其ITHSK/bid限额。r:[0,T]×eC→ R是与MDP相关的持续奖励,具体定义如下:R(t,z,a):=-cz、 ae-λ(z)(T-t) (t- t) 1t>t+cz、 aλ(z)-e-λ(z)(T-t) λ(z)+ e-λ(z)(T-t) g(z)1t≤T、 (3.6)其定义受以下第3.1条提议的推动。与MDP(Tn,Zn)n相关的累积奖励函数∈对于可接受的策略(fn)∞n=0定义为:V∞,(fn)(t,z)=E(fn)t,z“∞Xn=0rTn、Zn、fn(Tn、Zn)#,关联值函数是A中所有允许控制的累积奖励函数的上确界,即V∞(t,z)=sup(fn)∞n=0∈影音∞,α(t,z),(t,z)∈ [0,T]×E,(3.7)注意,我们对MDP的容许控制和连续时间控制问题的容许控制使用了相同的符号。备注3.2 Q的定义如(3.5)所示,因为Tn+1- 田纳西州≤ t、 锌+1∈ B | T,Z。

18
何人来此 在职认证  发表于 2022-5-31 11:33:59
,总氮,锌= λ(Zn)中兴通讯-λ(Zn)sQB | ZTn,αTnds=λ(Zn)中兴通讯-λ(Zn)sQB | ZTn,fn(Zn)ds,对于任何可容许策略α=(fn)保持不变∞n=0∈ A、 对于所有Borelian B E、 对于所有t∈ [0,T]。在续集中,我们表示[0,T]×EC: =nt、 z,a∈ E×{1,…,K}Mt型∈ [0,T],z∈ E、 a∈ 偶氮,EC:=nz、 a∈ E×{1,…,K}Mz∈ E、 a∈ Azo。Qis——来自ECto ETH的随机核,描述了跳跃目标的分布,即QB | z,u是订单簿在状态z下跳转到集合B的概率∈ E在跳跃之前,控制动作u∈ AZ在跳转时间后被选中。备注3.3 MDP的定义方式是,在市场上连续两次到达/限制/取消订单之间,控制是反馈和恒定的,即在时间连续设置中:我们限制自己控制α=(αt),其完全由决策函数fn:[0,t]×e表征→ A、 对于t,αt=fn(Tn,Zn)∈Tn,Tn+1通过滥用符号,我们在续集中用α表示对照序列(fn)∞n=0。以下命题3.1促使人们特别选择(3.6)中定义的连续奖励r:命题3.1(3.7)中定义的MDP的价值函数与(3.1)一致,即wehave for all(t,z)∈ EC:V∞(t,z)=V(t,z)。(3.8)证明。让我们证明,对于所有α=(fn)∈ A和所有(t,z)∈ ECVα(t,z)=V(fn)∞(t,z)。(3.9)让我们首先用Hn表示:=(T,Z,…,Tn,Zn)。注意,对于所有容许策略α:Vα(t,z)=Eαt,z“∞Xn=0T>Tn+1Tn+1- 田纳西州cZn,αn+ 1[吨≤T<Tn+1)g(ZT)- ηYT+(T- Tn)cZn,αn#=∞Xn=0E(fn)t,zhrTn、Zn、fn(Tn、Zn)i、 (3.10)在第一行和第二行之间,我们以Hn为条件。

19
可人4 在职认证  发表于 2022-5-31 11:34:02
我们承认V(fn)∞在(3.10)的r.h.s.中,以便完成(3.9)的证明。对于(3.9)中的所有可接受策略A,仍然需要取上确界才能得到(3.8)。根据命题3.1,我们推断做市商问题的价值函数与价值函数V相同∞具有有限视界的离散时间MDP。我们现在的目标是解决MDP控制问题。为了继续,我们首先确定了有限水平内的最大报酬映射MDP:(T v)(T,z):=supa∈亚利桑那州r(t,z,a)+Zv(t,z)Q(t,z | t,φa(z),a)= 苏帕∈亚利桑那州r(t,z,a)+λ(z)ZT-te公司-λ(z)sZv(t+s,z)Qdz |φa(z),ads公司, (3.11)我们记得:oφα(z)是指做市商遵循策略α且在做出决定之前,订单处于状态z时,订单簿的新状态。oλ(z)是订单簿过程的强度,假设订单簿处于状态z。我们应收紧假设(Hrewards),以保证(3.1)的解的存在性和唯一性,并表征后者。(HrewardsBis):运行和终端奖励最多为二次w.r.t。状态变量,一致w.r.t。控制变量,即(i)运行奖励f,使得| c |一致有界于z函数中的二次函数,即存在c>0,从而:(z,a)∈ E×A,| f(z,A)|≤ c(1+| z |)。(ii)终端报酬g不超过二次增长,即存在c>0,如下所示:z∈ E、 | g(z)|≤ c(1+| z |)。备注3.4假设(HrewardsBis)适用于以下情况:g是市场制造商的最终财富加上其库存的惩罚,并且没有持续奖励,即。

20
何人来此 在职认证  发表于 2022-5-31 11:34:07
f=0。本节的主要结果是以下定理,该定理给出了(3.1)解的存在性和唯一性,并将后者描述为(3.11)中定义的最大报酬算子的固定点。定理3.1 T承认一个唯一的固定点v,该点与TDP的值函数一致。此外,我们有:v=v∞= 五、 用f表示*算子T的最大化子。然后f*, f*, ...是一种最优的静态(在MDP意义上)策略。备注3.5定理3.1指出,在问题的MDP公式中,最优策略是平稳的,但当然,对于具有有限期限的原始时间连续交易问题(3.1),它不是平稳的,因为时间成分在原始公式中不再是状态变量。实际上,给定n∈ N和当时订单簿z的状态,时间tn的最佳决策由f给出*Tn,z.我们下一节将介绍定理3.1.3.3的证明。定理3.1的证明首先提醒我们在前一节EC中定义:=nz、 a∈ E×{1,…,K}Mz∈ E、 a∈亚硝酸盐[0,T]×EC: =nt、 z,a∈ [0,T]×E×{1,…,K}Mt型∈ [0,T],z∈ E、 a∈ Azo。定义3.1 A可测量函数b:E→ 如果存在正常数cc、cg、cQ、cφ,则称R+为受控过程(Zt)的边界函数,从而:(i)| f(z,a)|≤ 所有ccb(z)(z,a)∈ 欧共体。(ii)| g(z)|≤ E中所有z的cgb(z)(iii)Rb(z)Q(dz | z,a)≤ cQb(z)表示所有(z,a)∈ 欧共体。(iv)b(φαt(z))≤ cφb(z)表示所有(t,z,α)∈[0,T]×EC、 提议3.2让b这样:z∈ E、 b(z):=1+| z |。然后,b是受控过程(Zt)在假设(HrewardsBis)下的边界函数。证据

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-11 20:37