第二,变异将是对偏离均衡路径行动进行试验的源泉。而且,因为“所有代理人学习”这一事件的概率在λ→0的极限中无限大于变异的概率,所以相对于每一个代理人只观察到他自己匹配中的结果,模型将产生更多的关于偏离均衡路径的信息。因此,我们应该期望,为了排除非纳什均衡的结果,相对于通常的观察结构,在这个模型中需要更少的试验。这个效果被当参与人学习时他们修改其猜测以便和他们最近的观察相一致这个假设条件强化,因此在这里,单一的试验具有与虚拟行动模型中无限多的试验相同的效果。实际上,我们将看到,在确定长期分布时要考虑的关键问题是“一个单一的参与人i进行试验,然后在所有其他参与人改变他们的行动之前所有参与人改变他们的猜测以便和试验的结果相匹配”。由于这个原因,我们应该期望在这个模型中收敛于非纳什均衡的结果将比在本章前面考虑的模型中更不普遍。这也是为什么我们称这个模型为(相对)“快速学习”的原因。
7.6.2确定性动态
像通常那样,研究的方法是首先解决没有变异时将发生什么这一问题。在这种情况下,有任何单一元素极限集(定态)产生的结果必定是独立的、单一的自确认均衡的结果。为了认识到这一点,我们指出,因为每一个参与人都具有一些最终学习的机会,而且学习的参与人观察到所有匹配中的行动,所以,如果行动被一个单一的结果吸收,则所有的参与人将最终知道这个结果是什么,因此所有的参与人必定在对应路径上的所有信息集中具有正确的猜测。于是,结果必须对应于一个单一的自确认均衡。正如我们在上面指出的那样,假设条件包含了独立性。反过来,任何独立的、单一的自确认均衡对应于一个单一元素极限集。
应该指出,一个给定的自确认均衡能够对应于许多不同的定态,因为在不可达的信息集中实际的行动是任意的,而且只存在对这个偏离均衡路径行动的猜测的弱限制。特别地,如果在定态θ参与人i能够偏离并将行动转移到一个未达到的子博弈,且任何其他参与人的偏离都不能使这个子博弈被达到,则只在除了i以外的其他参与人对该子博弈中的行动的猜测这个方面,与θ不同的任何其他状态θ′也是自确认均衡的,因此也是一个定态。而且,如果只要在定态中参与人2的信息集不会实际达到他们就给参与人2这个移动,则存在定态,在这些定态下一个给定参与人(比如参与人1)的不同代理人正好在他们将得到什么支付方面不一致。这样,即使定态的结果必定是单一的自确认均衡,结果也能够对应于一个没有单一信念的稳定状态。
由于稳定状态的巨大的多样性,列举无扰动系统的所有稳定状态并计算最小阶数的树的强力方法可能相当冗长乏味。然而,正如下面将要证明的那样,因为大量的定态使得变异很容易将行动从一个定态转移到另一个定态,所以我们只需要考虑由单个变异引起的转移,因此这样的计算不是必须的。
7.6.3具有变异的动态
我们现在转移到有变异从而λ>0的情况。我们称一个状态是随机稳定的(stochastically stable),如果它包含在当λ→0时遍历分布μλ的支撑集的极限中。
命题7.5 (Noldeke and Samuelson,1993)如果状态θ是随机稳定的,则吸引域(在Γ(0)中)在一个单一的变异下能够达到的任何稳定状态θ′也是随机稳定的。直观地看,如果一个单一的变异就足以从θ中跳出,则在状态θ中花费的期望时间的阶为1/λ。而且,因为θ′是一个定态,所以在离开该状态前至少发生一次变异。这样,在θ′中花费时间的期望值至少与在状态θ中花费时间的期望值具有相同的阶。
使用这个关于稳定状态的引理,诺尔德克和萨缪尔森提出了存在一个随机稳定结果的必要条件。这就是极限分布集中在导致定义在终结点之上的相同分布的那些状态上。从我们上面的观察可以看出,为了存在一个稳定的结果,必须存在一个对应的状态的集合,所有这些状态都产生这个结果而且没有单一的变异能够导致具有不同结果的状态。
命题7.6 (Noldeke and Samuelson,1993)考虑一个扩展式博弈,在这个博弈中每一个参与人在任何行动的路径上至多行动一次。假设一个结果是随机稳定的,而且在一些具有该结果的随机稳定状态上参与人i能够偏离并将行动转移到某一个子博弈上。则该子博弈没有一个自确认均衡能够给参与人i比他在随机稳定结果中得到的支付更高的支付。