|
我们有xi(t)=(βσRi(t)(1- xi(t)),σRi(t)>0,βσRi(t)xi(t),σRi(t)<0,(8)和xij(t)=(-βσRj(t)xi(t),σRj(t)>0,-βσRj(t)xj(t)xi(t)1-xj(t),σRj(t)<0,(9),β为参数。从随机混合策略向量开始,对于所有学习算法,混合策略的初始化将是相同的,这些学习算法遵循零期望和满意度水平,我们在等式中迭代动力学。(5) -(9)对于5000个时间步(我们设置α=0.2和β=0.5)。为了确定模拟运行是收敛的,我们只考虑最后20%的时间步,以及在此时间间隔内平均概率大于1/N的混合策略向量的组成部分。如果这些分量和时间步长的标准偏差平均值大于0.01,则认为模拟运行不收敛。虚拟玩家行计算时间T时列的预期混合策略的第j个分量,我们用▄yj(T)表示,作为过去j已经玩过的时间的分数:▄yj(T)=PTt=1I(j,sC(T))T.(10)在上述等式中,I(a,b)是指示函数,如果a=b,I(a,b)=1,如果a=b,I(a,b)=0,如果a=6=b。玩家行然后选择在时间T,I(T)=argmaxkXj∏R(k,j)~yj(T)最大化预期收益的移动。(11) 柱的行为是等效的。我们使用与强化学习相同的收敛准则和相同的模拟运行长度。实际播放中没有参数。复制器动态我们使用离散时间复制器动态xi(t+1)=xi(t)+xi(t)δtXj∏R(i,j)yj(t)-Xkjxk(t)∏R(k,j)yj(t),yj(t+1)=yj(t)+yj(t)δtXi∏C(j,i)xi(t)-Xikyk(t)∏C(k,i)xi(t)!,(12) 其中δt=0.1是积分步长。其中,模拟运行的长度由到达机器精度边界的混合策略向量的第一个分量内生确定。
|