|
如果进一步Gθi(t)=1{t≥τ} 一段时间τ∈ T,则相应的策略称为“纯”对于一对纯策略,对应于停止时间τi,τj≥ θ,玩家i在θ的预期报酬将是{τi<τj}Lτi+1{τi>τj}Fτj+1{τi=τj}MτiFθi.这是线性扩展到混合策略。定义2.5。给定两个扩展的混合策略(Gθi,αθi),(Gθj,αθj),i,j∈ {1,2},i6=j,从θ开始的子游戏中玩家i的支付∈ T isVθiGθi,αθi,Gθj,αθj:= EZ[0,^τθ)1.- θj(s)LsdGθi(s)+Z[0,^τθ)1.- θi(s)FsdGθj(s)+Xs∈[0,^τθ)θi(s)Gθj(s)Ms+λθL,iL^τθ+λθL,jF^τθ+λθMM^τθFθ,式中^τθ:=inf{t≥ θ|αθ(t)+αθ(t)>0}和λθL,i,λθL,jandλθMare是最终结果概率(球员i或j分别成为领先者或同时停止)由αθi、αθjat^τθ诱导,并在附录C中定义。扩展的结果概率和u p到(1- Gθi(^τθ)-))(1 - Gθj(^τθ)-)),使用前无人停车的概率。附录C中的定义简化了Riedel和Steg(2017)中的定义,因为其规律性稍强。如果两者都正常,则受限映射αθi:Ohm ×[0,T]→ R必须是FT B([0,T])-可测量任何T∈ R+。这是一个比适应性更强的条件,但比可选性弱,我们自动放弃了右连续性。渐进可测性意味着αθi(τ)对于任何τ都是Fτ-可测的∈ T由于我们这里只对对称博弈感兴趣,我们可能会要求αi(·)是右连续的,因为它的值为零,这简化了结果的定义。
|