|
此列对应于并没有循环的最佳回复向量,即形式v=(0,…,0,0,x),其中x=1,2。是不同固定点的数量,从上到下递增。右侧列的圆圈对应的是具有周期且无固定点(F(v)=1)的最佳回复向量,从下到上的周期比例较高。在这种情况下,学习算法可能会收敛(例如,收敛到混合策略均衡),但随着最佳回复周期变得越来越可能,收敛速度明显下降。插图显示了使用Payoff矩阵的布尔约化进行模拟的结果。这种相关性现在非常强:在所有情况下,除了实际情况外,加权相关性都接近统一。布尔约化的相关性如此强的原因主要是因为原始Payoff矩阵具有连续值,因此学习算法可能遵循所谓的准最佳回复(见SI,第2节)。尽管布尔约简与原始矩阵具有完全相同的最佳回复动态,但如果学习规则涉及历史依赖性和有限理性,则其他支付的值可能很重要。例如,inFig。1A,第(2,3)列的付款为15,而第(2,1)列的付款为16。这两种支付方式非常接近,由于历史依赖性和有限理性,玩家栏可能会选择移动3而不是移动1,从而打破最佳回复周期并达到固定点。对于竞争性博弈,也存在着收敛到混合策略纳什均衡的问题,这就是布尔约简的相关性要低得多的原因。总之,平均收敛概率与最佳回复结构之间存在稳健的相关性。
|