|
然后是米妮特-1也希望如此,但好斗的Donald-2立即回答为0,从而简化了时间不均匀性,因为他在反驳Donaldt。如果Donaldtstarts的值为0,则情况类似。相反,存在两个平衡点,因为一旦初始Donald(或Minnie,取决于初始s状态Xis)确定了两个可能的选择0或1中的一个,上述反向递归也意味着一个唯一的正向递归。(i)–(iii)的证明。让我们首先观察到,根据可容许性,任何均衡停止策略θ(可能是非马尔可夫的)必须在{Xt=0}上停止。此外,它必须在{Xt=4}上停止:状态4是吸收的,而g(4)>0,因此,由于贴现因子δ<1,继续永远不是最优的。由于我们也讨论了θ在{Xt=3}上的停止,因此我们可以将注意力限制在满足{Xt上θt=1的平衡上∈ 所有t的{0,3,4}}∈ T.(i)设θ为任意平衡;我们证明θ是马尔可夫的(或者更确切地说,a.s.等价于M-阿尔可夫平衡)。实际上,首先假设初始条件为X=1,并且X t∈ T、 在{Xt上有θT=1∈ {0, 3, 4}}. 但由于0,3,4是吸收态,{Xt∈ {0, 3, 4}} =∪s≤t{Xs∈ {0, 3, 4}}. 假设t∈ T是奇数。那么{Xt=1}是一个空集,因此在达到a.s.等价时,只有θton{Xt=2}的值尚未确定。但由于{0,3,4}上的吸收,以及集合{Xs=1}和{Xs=2}中正好有一个具有正概率的事实≤ t、 我们有{Xt=2}={X=2,X=1,X=2,…,Xt=2},这意味着{Xt=2}是Ft中的一个原子。特别是,{Xt=2}上的θtis a.s.常数,并且由于{Xt=2}c上的θt=1 a.s,因此θtis是马尔可夫形式。如果t是偶数,则情况类似,因此θ是马尔可夫的。
|