楼主: 能者818
1014 44

[量化金融] 大型股票一级限额订单的最优清算 [推广有奖]

11
可人4 在职认证  发表于 2022-5-30 23:54:52
以下假设描述了一组可接受的交易策略:假设2.6(可接受的交易策略)。(a) 代理商只能在价格变动后立即进行交易;让τndenote记录她的第n个决策期,即第n个价格变化的时间;τ=0,到期之前或到期时的最后一个决策期为τn,其中n:=sup{n∈ N:τN≤ T};(b) 到期日T时,代理人需要通过市场指令出售所有未执行的股票;(c) 在每个决策期τn,代理观察出价和询问队列,其体积为vb和vaunit大小;然后,她可以以最好的要价发布l个单位大小的卖出限制订单,并以最好的出价提交市政债券大小的卖出市场订单;我们假设代理从未耗尽最佳出价队列,并且代理速度较慢,这意味着她的限价单(l个单位大小)在提交时的时间优先级低于其他市场参与者的限价单(V个单位大小);(d) 代理人遵循“不取消”规则:除非价格下降,否则她不会取消限价订单;(e) 不允许卖空。限制代理行在价格变动时的交易行为(假设2.6(a))听起来可能相对较强,但对于捕捉时间优先规则和代理行限额指令的执行是必要的。我们将在第3.3节研究如何确定最佳政策,使到期时的预期财富最大化。3、由半马尔可夫决策过程建模的交易过程半马尔可夫决策模型【45,第7章】是一个动态系统,其状态在随机的时间段观察,每个时间段都是在采取行动时观察到的,并且由于行动而产生的回报(在该时间段一次性支付或在下一个时间段之前持续支付)。

12
nandehutu2022 在职认证  发表于 2022-5-30 23:54:55
它满足以下两个马尔可夫性质:(M1)给定给定时代的当前状态和动作,直到下一个时代和下一个状态的时间仅取决于当前状态和动作;(M2)任何时期产生的报酬仅取决于该时期的国家和行动。半马尔可夫决策模型很好地描述了我们风格化的限额订单中代理人的清算问题:代理人参与的限额订单是一个动态系统,代理人在每个决策时期的销售行为可能会导致支付。事实上,假设2.6(a)使我们能够仅在决策时期跟踪该系统的状态,假设2.2、2.4和2.6(c)确保系统的过渡机制是稳定的,并且满足(M1)-(M2)。此外,根据假设3.3,代理行匹配的限额订单中的每个付款都分配到最近的传入决策期,以便一次性付款。在第3.1节中,我们定义了一个(平稳)半马尔可夫决策模型,该模型具有代理清算程序的一次性付款。在第3.2节中,我们定义了一个与地平线相关的马尔可夫确定性策略,并说明了半马尔可夫决策过程的演变。在第3.3节中,我们给出了代理人清算问题的预期报酬函数、价值函数和最优策略的定义。3.1。半马尔可夫决策模型。具有一次性付款和固定水平约束的半马尔可夫决策模型定义为六元组{E,(a(E))E∈E、 Q(·,···)、P(···)、r(·,·)、w(·,·)},其中每个元素定义如下。6安托万·贾奎尔和刘浩3.1.1。状态空间。修复N∈ N+足够大。状态空间E:={-1,+1}×{1,…,N}×{0,…,N}是在每个决策期观察到的系统的所有预决策条件集(即代理人参与的限额指令簿)。

13
kedemingshi 在职认证  发表于 2022-5-30 23:54:59
具体而言,系统处于e状态:=(j、vb、va、p、z、y)∈ E表示:o询价/投标价格变化等于j勾号;obest bid(resp.ask)队列包含vb(resp.va)单位订单;oask价格等于pε;o代理人在前一决策期发布的限额指令的执行部分为z单位大小;o代理的剩余库存头寸为y单位大小。3.1.2。动作空间。动作空间A:={0,…,m}×{0,…,l},带m,l∈ N+,表示交易策略集,即代理选择以最佳出价和要价分别提交和发布的市场和限制订单的金额(单位大小)。常数m(对应l)表示代理允许交易的单个市场(对应限额)订单的最大金额(单位大小)。根据假设2.6(c)(e),代理人在状态e下的容许行动空间∈ E由(3.1)A(E)定义:=(米,升)∈ A:m<vb,m+l≤ y,这样代理就永远不会耗尽整个最佳出价队列,也不会卖空。所有可行状态动作对的集合用K表示:={(e,α)| e∈ E、 α∈ A(e)}。3.1.3。半马尔可夫核。在介绍下一个概念之前,请回顾以下定义。定义3.1(亚/半马尔可夫核)。让(Ohm, F) 以及(Ohm, F) 成为真正可测量的空间。A映射p(···):F×Ohm→ [0,1]被称为Ohm鉴于Ohm如果:o对于任何ω∈ Ohm, p(·|ω)是(Ohm, F) 带p(Ohm|ω)≤ 1、 o对于任何F∈ F、 p(F |·)是一个Borel可测函数。特别是,如果p(Ohm|ω) =1表示所有ω∈ Ohm, 那么p(····)是Ohm鉴于Ohm.

14
大多数88 在职认证  发表于 2022-5-30 23:55:03
此外,amap q(·,···):R+×F×Ohm→ [0,1]是R+×上的半马尔可夫核Ohm鉴于Ohm如果:o对于(F,ω)∈ F×Ohm, q(·,F |ω)为非递减右连续q(0,F |ω)=0;o对于t≥ 0,q(t,····)是Ohm鉴于Ohm;o 极限限制↑∞q(t,····)是Ohm鉴于Ohm.在我们的模型中,假设Q(·,····)是给定K的R+×E上的半马尔可夫核,确定半马尔可夫决策过程的(平稳)传递机制:对于任何≥ 0和▄e∈ E、 给定状态作用对(E,α)∈ 在某个决策期,数量q(t,~e |(e,α))表示直到下一个决策期的时间小于或等于t且下一个系统状态为~e的(联合)概率。详细计算见第4节。样式化的限价订单模型不会对股价实施正向限制。但我们假设股票价格在开始时远高于零,清算期T很短,因此股票价格永远不会为负。通过滥用语言,我们把Q(t,{e}|(e,α))写成Q(t,{e |(e,α))。大型股票一级限额指令簿中的最优清算73.1.4。终端内核。终端核P(·|·)是N上给定K×T的次马尔可夫核-, 并描述最后一个决策期和成熟期之间的执行动态:对于任何z∈ N、 给定状态actionpair(e,α)∈ K和到期时间λ∈ T-在某个决策期,quantityP(z |(e,α),λ)表示(联合)概率,即直到下一个决策期的时间严格大于λ,并且直到到期的限制指令的执行部分为z单位大小。第4节给出了详细的计算。备注3.2。

15
nandehutu2022 在职认证  发表于 2022-5-30 23:55:06
根据我们的建模框架,终端核满足以下性质:oP(0 |(e,α),λ)=1当λ≤ 0;oPz公司≥0P(z |(e,α),λ)=1- 当λ>0时,Q(λ,E |(E,α))当z>l时,P(z |(e,α),λ)=0;对于任何(e,α)∈ K、 3.1.5。定期奖励功能。周期报酬函数r:K→ R+定义为(3.2)R(e,α):=ρ[m(p- 1) +z(p- j) ],对于所有(e,α)∈ K、 式中,ρ:=εσ,表示与给定状态动作对(e,α)的决策期相关的一次性付款。具体而言,定义(3.2)基于以下假设给出,即将代理行限额指令匹配部分的支付分配到最近的传入决策期。假设3.3(定期奖励函数)。对于n∈ N+,区间内匹配限额订单的支付[τN-1,τn)分配到τn。假设系统处于状态e∈ E和代理采取行动α∈ A(e)在某个决策时期。然后她立即获得价值m(p- 1) ρ以最低价提交m个单位的市场订单(p- 1) ε。最重要的是,在之前的最佳要价(p- j) ε意味着支付价值z(p- j) ρ,根据假设3.3.3.1.6在当前决策期分配。终端奖励功能。终端奖励函数w:K×N→ R+定义为(3.3)w(e,α,z):=ρ[(p- 1) (y)- m) +z]- g(y- m级- z) ,对于所有(e,α)∈ K和z∈ N、 其中,市场影响函数g:N→ R+的形式为(3.4)g(x):=ρxv,对于常数v∈ N+。对于任何(e,α)∈ K和z∈ N、 数量w(e,α,z)表示与到期日T相关的一次性付款,给定最后一个决策期的状态动作对(e,α),以及最后一个决策期和到期日之间代理限制订单的匹配部分为z单位大小。

16
mingdashike22 在职认证  发表于 2022-5-30 23:55:11
具体而言,身份(3.3)基于以下假设给出:假设3.4(终端奖励函数)。(a) 在区间【τn,T】内获得的匹配限额指令的支付分配在T;(b)当描述到期时市场指令带来的市场影响时,我们假设影响是线性的,v代表平均深度(单位大小)在限额订单簿的投标侧;到期时间λ<0的决策期意味着它发生在到期后的一段时间|λ|。通过滥用语言,我们把P({z}|)((e,α,λ))写成P(z |(e,α,λ))。8 ANTOINE JACQUIER和HAO LIU(c)到期时未执行的股票无法扫过限额指令簿出价方的所有流动性,因此终端奖励函数是R+-值的。假设3.4(b)得出(3.4)中的市场影响函数g(·)。此外,根据假设3.4(a)(b),最终报酬w(e,α,z)由匹配限额指令(金额ρpz)和到期市场指令(金额ρpz)的支付组成- 1) (y)- m级- z) ,扣除相应的市场影响(ofamount g(y- m级- z) )。3.2。有限时域半马尔可夫决策过程的动力学。假设代理应用下面定义的与ahorizon相关的Markov确定性策略,根据当前状态和成熟时间为其在每个项目的行动指定决策规则。定义3.5。决策规则是一个可测函数φ:E×T-3(e,λ)7→ α∈ A(e),使得φ(e,λ)=(0,0)对于任何(e,λ)∈ E×R-. 让Φ表示决策规则集。与地平线相关的马尔可夫确定性策略是一系列决策规则π:={φ,φ,φ,…},带φn∈ 任意n的Φ∈ N、 我们用∏表示与地平线相关的马尔可夫确定性策略集。Apolicyπ∈ 如果存在φ,则称∏为静止∈ Φ,使得任意n的φn=φ∈ 我们写π={φ,φ,…}:=πφ。

17
kedemingshi 在职认证  发表于 2022-5-30 23:55:14
我们将∏表示一组与平稳时间相关的马尔可夫确定性策略。备注3.6。在第n个决策期,系统状态为,成熟时间为λn:=T- τn,anaction an=φn(en,λn)由决策规则φnw给出,当策略π∈ 应用∏。特别是,代理人在任何决策期τnw停止交易,其中n>n(即λn<0),根据定义3.5,αn=(0,0),完全符合假设2.6(b)。表1总结了实施策略π时半马尔可夫决策模型的演变∈ ∏。假设系统处于eat初始状态τ,且代理具有计划交易期限λ。根据策略π,她选择动作α=φ(e,λ)。然后需要一段时间才能达到下一个决策期τ=τ+t,此时系统状态变为EAN,代理的成熟时间变为λ=λ- t、 然后选择动作α=φ(e,λ),依此类推。在第n个决策期,将产生金额为r(en,αn)的定期支付。在到期日T时,将获得最终收益w(en,αn,z)。特别是,根据备注3.6,代理人在T之后没有采取任何行动,相应地,也没有支付任何报酬。接下来,我们基于Ionescutucea定理在概率空间中构造了半马尔可夫决策过程。定义3.7。让(Ohm, F) 是由样本空间组成的可测空间Ohm, 定义人Ohm :=nn型∈ N、 z∈ N{tn,en,λn,αn}∈ R+×E×T-×A(en)n∈否,以及相应的Borelσ-代数F。

18
nandehutu2022 在职认证  发表于 2022-5-30 23:55:17
定义随机变量N、Z、Xn、En、∧N、Anon(Ohm, F) as:N(ω)=N,Z(ω)=Z,Xn(ω)=tn,En(ω):=Jn、Vbn、Van、Pn、Zn、Yn(ω) =en,∧n(ω)=λn,An(ω):=(Mn,Ln)(ω)=αn,大型股票一级限额指令簿中的最佳清算9指数时间状态到期时间行动支付初始τeλ≥ 0α=φ(e,λ)r(e,α)stτ=τ+teλ=λ- t型≥ 0α=φ(e,λ)r(e,α)ndτ=τ+teλ=λ- t型≥ 0α=φ(e,λ)r(e,α)。。。。。。。。。。。。。。。。。。(n)- 1) -thτn-1=τn-2+tn-1en-1λn-1=λn-2.- 田纳西州-1.≥ 0αn-1=φn-1(英语-1,λn-1) r(en-1,αn-1) n-thτn=τn-1+tnenλn=λn-1.- 田纳西州≥ 0αn=φn(en,λn)r(en,αn)端子T w(en,αn,z)(n+1)-thτn+1=τn+tn+1en+1λn+1=λn- tn+1<0αn+1=(0,0)0。。。。。。。。。。。。。。。。。。表1:。策略π下半马尔可夫决策过程的演化∈ 对于任意ω∏∈ Ohm 和n∈ N、 其中oxn是(N- 1) -第个和第n个决策纪元(X=0几乎可以肯定);oEn,∧n,an表示系统状态、成熟时间和第n个决策期的代理行为;oN是最后一个决策期的索引;oZ是代理行在第N个决策期和到期日之间执行的限额指令的金额(单位大小)。备注3.8。基于此建模框架,以下特性几乎肯定适用于n∈ NoλN+1=λN- Xn+1:成熟时间的演变;oPn+1=Pn+Jn+1:询价价格的演变(以刻度大小为单位);oYn+1=Yn- 明尼苏达州- Zn+1:库存状况的演变(单位规模);o锌+1≤ Ln:匹配的限制订单数量不能超过代理在每个排队比赛中发布的限制订单数量;oN=sup{N∈ N:∧N≥ 0}:最后一个决策纪元的索引;oZ≤ ZN+1:在最后一个决策期和到期日之间匹配的限额指令的金额不能超过在没有最终期限限制时执行的限额指令的金额。定理3.9。

19
mingdashike22 在职认证  发表于 2022-5-30 23:55:21
[Tulcea定理[7,第2.7.2节]]适用于任何(e,λ)∈ E×T和π∈ π上存在唯一的概率测度Pπ(e,λ)(Ohm, F) 因此,对于任何t≥ 0,~e∈ E、 α∈ A、 z∈ N和N∈ N、 Pπ(e,λ)(X=0,e=e,λ=λ)=1,Pπ(e,λ)(An=α| Hn=Hn)=1{φN(en,λN)=α},Pπ(e,λ)(Xn+1≤ t、 En+1=~e | Hn=Hn,An=αn)=Q(t,~e |(En,αn)),Pπ(e,λ)(Xn+1>λn,Z=Z | Hn=Hn,An=αn)=P(Z |(En,αn),λn),其中Hn:=({X,e,λ}),如果n=0,{Xi,Ei,∧i,Ai}i=0,。。。,n-1,{Xn,En,∧n}, 如果n∈ N+,是描述第N个决策时代之前历史的随机变量序列(随机变量(或随机变量序列)的实现由相应的小写字母表示)。10 ANTOINE JACQUIER和HAO LIU3.3。价值函数与最优策略。考虑具有第2.2节所述目标和交易策略的代理人,介绍以下定义。定义3.10。定义政策π下的有限期预期回报函数∈ πby(3.5)Vπ(e,λ):=eπ(e,λ)NXn=0r(En,An)+w(En,An,Z)!,对于任何(e,λ)∈ E×T,以及值函数(3.6)V*(e,λ):=sup{Vπ(e,λ),π∈ π}。政策π*∈ 如果等式(3.7)Vπ*(e,λ)=V*(e,λ)适用于所有(e,λ)∈ E×T.备注3.11。对于任何(e,λ)∈ E×T,我们可以将量Vπ(E,λ)改写为(3.5)asVπ(E,λ)=Eπ(E,λ)∞Xn=0r(En,An)1{N≥n}+ w(En,An,Z)1{N=N}!=Eπ(E,λ)∞Xn=0r(En,An)1{∧n≥0}+w(En,An,Z)1{0≤∧n<Xn+1}!=∞Xn=0Eπ(e,λ)r(En,An)1{∧n≥0}+w(En,An,Z)1{0≤∧n<Xn+1},其中第二个等式后面写{N≥ n} ={∧≥ 0,∧n≥ 0}={∧n≥ 0},{N=N}={∧≥ 0,∧n≥ 0,∧n+1<0}={∧n≥ 0,∧n+1<0}={0≤ ∧n<Xn+1},因为序列{n}n∈Nis是非递增的,第三个等式是由于周期/终端奖励函数的非负性和单调收敛定理。4.

20
何人来此 在职认证  发表于 2022-5-30 23:55:26
半马尔可夫核我们现在使用排队论语言提供半马尔可夫核Q(·,······)和终端核P(······)定义的第3.1类的表达式。我们首先(第4.1节)将代理参与的最佳队列的动力学建模为广义生灭过程,并根据广义生灭过程的首个消息时间为零的分布,推导出所有可能情况下半马尔可夫核和终端核的闭式表达式。然后(第4.2节)使用拉普拉斯方法计算这些分布。4.1。闭合形式表达式。为了便于说明,我们将把e×T中的元素(e,λ)与确定性平稳策略π固定在一起∈ 在本节中,用P表示Pπ(e,λ)。大型股票一级限额指令簿中的最优清算114.1.1。半马尔可夫核。根据定理3.9和马尔可夫性质(M1),我们可以将半马尔可夫核表示为给定初始条件和代理行为的排队竞赛的持续时间和结果的(平稳)分布:(4.1)Q(t,| e |(e,α))=P(Xn+1≤ t、 En+1=| e | En=e,An=α),对于任何t≥ 0,~e∈ E、 (E,α)∈ K、 n个∈ N、 为了简化进一步的计算,我们现在将(4.1)中的条件概率分解。提案4.1。对于任何¢e:=~j、~vb、~va、~p、~z、~y∈ E和e:=(j,vb,va,p,z,y),α:=(m,l)∈ K、 我们有(4.2)Q(t,~e |(e,α))=Qj,v,αt、 ~j,~zfjvb,▄va{p=p+~j}{y=y-m级-~z},对于所有t≥ 0,其中任意n∈ N、 Qj,v,αt、 ~j,~z:= PXn+1≤ t、 Jn+1=~j,Zn+1=~zJn=j,(Vbn,Van)=(vb,va),An=α.证据

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-2 03:48