|
为了简化,读者可以假设强度仅取决于向量a和b。oQ是MDP的过渡内核,定义如下:QB×C | t,z,α:= λ(z)ZT-te公司-λ(z)sB(t+s)QC |φα(z),αds+e-λ(z)(T-t) t型∈B、 z∈C、 (3.5)对于所有Borelian集合B R+和C E、 对于所有(t,z)∈ [0,T]×E,对于所有α∈ A、 其中,Qi是(Zt)的转换核,对于所有状态z定义为:Qz | z,u=λM+(z)λ(z)如果z=eM+(φu(z))。。。λC+(z)λ(z),如果z=eC+K(φu(z)),其中φu(z)是作出决策u时受控订单簿的新状态,以及决策前订单簿处于状态z时的新状态;eM+(z)是订单簿在收到买方市场订单后的新状态,因为它在跳跃之前处于z状态;eC±i(z)是订单簿在收到来自一般市场参与者的取消订单后的新状态,考虑到订单处于z状态,该订单位于其ITHSK/bid限额。r:[0,T]×eC→ R是与MDP相关的持续奖励,具体定义如下:R(t,z,a):=-cz、 ae-λ(z)(T-t) (t- t) 1t>t+cz、 aλ(z)-e-λ(z)(T-t) λ(z)+ e-λ(z)(T-t) g(z)1t≤T、 (3.6)其定义受以下第3.1条提议的推动。与MDP(Tn,Zn)n相关的累积奖励函数∈对于可接受的策略(fn)∞n=0定义为:V∞,(fn)(t,z)=E(fn)t,z“∞Xn=0rTn、Zn、fn(Tn、Zn)#,关联值函数是A中所有允许控制的累积奖励函数的上确界,即V∞(t,z)=sup(fn)∞n=0∈影音∞,α(t,z),(t,z)∈ [0,T]×E,(3.7)注意,我们对MDP的容许控制和连续时间控制问题的容许控制使用了相同的符号。备注3.2 Q的定义如(3.5)所示,因为Tn+1- 田纳西州≤ t、 锌+1∈ B | T,Z。
|