|
我们检查是否在最后20%的时间步中,两个玩家最常用的移动概率都是单调递增的,而所有其他概率都是单调递减的。换句话说1。只考虑最后20%的时间步。2、对于每个玩家,找到概率最高的移动,并验证该概率在整个时间间隔内是否一直在增加。3、检查所有其他移动的概率是否在降低。4、如果两个参与者都满足条件2-3,则将模拟运行确定为收敛。这些标准只是反映了我们在图S3中观察到的情况。虽然我们不能得出这样的结论,但对100多个模拟值的直接检查表明,在绝大多数情况下,收敛到纯策略纳什均衡或未能收敛是正确的。最后,我们想对复制器动力学与其他学习算法相比似乎更强的不稳定性补充一句警告。由于内存有限,并且取决于初始条件,可能需要很长时间才能“找到”纯策略纳什均衡,这意味着复制器动态可能会在仍处于“瞬态”时首先达到机器精度极限。换句话说,它可能不在由周期决定的吸引盆地中,但也可能在信任时间间隔内未达到纯策略纳什均衡。这对于大型Payoff矩阵尤其如此,N≥ 从图S3底部面板中的直线可以看出。我们使用Python包decimal对任意精度的数字进行了实验。
|