|
N-1和状态(s,α)∈ S、 如果(2.2)中预期内的表达式的正部分在pα下有明确的预期,则适应过程的三元组(p,q,r)是可容许的控制。对于给定的LOBν、初始条件(m,s,α)和F×B(s)自适应随机场(p,q,r)的三元组,通过pn=pn将后者与随机过程(p,q,r)区分开来(只要不会引起混淆)S(p,q,r)n(m,S,ν),α, qn=qnS(p,q,r)n(m,S,ν),α, rn=rnS(p,q,r)n(m,S,ν),α,状态动力学(2.1),对于n=m,N.这个系统递归地确定(p,q,r)和S(p,q,r)。定义2.2。对于给定的LOBν,我们称渐进可测随机场(p,q,r)的三重态为非最优控制,如果对于任何m=0,N和任意(s,α)∈ S、 我们有:o(p,q,r)是可容许的,oJ(p,q,r)(m,S,α,ν)≥ J(p,q,r)(m,s,α,ν),p-a.s.,对于任何容许控制(p,q,r)。在上文中,我们对连续玩家博弈做出了标准的简化假设:每个代理都太小,以至于当她改变控制时,都无法影响累积控制的经验分布(用ν表示)(参见Carmona(2013))。还要注意的是,我们对最优控制的定义意味着它是时间一致的:在未来的任何步骤中,使用相同的终端标准重新评估最优,必须得出相同的最优策略。接下来,我们讨论拟议博弈中的均衡概念。首先,我们注意到,如果pbNor PANNE变得有限,库存为正或负的代理商可能面临的目标价值为“-∞”, 对于他们使用的任何控制。在这种情况下,它们的最优控制可能会以任意方式选择,从而导致不切实际的平衡。为了避免这种情况,我们对ν施加额外的正则性条件。定义2.3。给定的LOBν是可容许的,如果对于任何m=0。
|