|
因此,我们得到(2)xn+1=xn(1- )c(1)xn(1- )c(1)+(1)- xn)(1- )c(2)=xnxn+(1- xn)(1- )c(2)-c(1)。这样,在时间n的大成本将降低在时间n+1选择相同策略的概率。通过将(1)中的代价函数值代入(2),我们得到:(3)xn+1=xn(1- )αNxnxn(1- )αNxn+(1- xn)(1- )βN(1-xn)=xnxn+(1- xn)(1- )βN-(α+β)Nxn。我们引入了新变量(4)a=(α+β)N ln1.- , b=βα+β。事实上,我们可以假设α+β=1(即,通过变换α=αα+β,β=βα+β,以及= 1.-(1-)α+β). 在这些假设下,方程(4)简化为(5)a=N ln1.- , b=β。因此,我们将研究由一维映射生成的动力系统:(6)fa,b(x)=xx+(1- x) exp(a(x- b) )。通常采用的标准假设是,学习率 在以下分析中可以视为一个小的固定常数,但常数的准确值 由于我们的分析/结果适用于任何固定的选择 不管多小。背景 = 1.- 1/e,以便ln1.-= 1在此假设下简化符号a=N。然后,我们将研究其余两个参数对系统性能的影响,即a(标准化)系统需求和b(标准化)平衡流量。当b=0.5时,路由博弈是完全对称的;然而,当b接近0或1时,路由实例变得接近于庇古网络,几乎所有代理都在平衡时选择相同的边。2.2. 遗憾、无政府状态的代价和时间平均的社会成本。现在,我们将从每个代理的角度考虑这个游戏,将其作为在线优化问题的一个实例。考虑2个动作的集合A={1,2}和时间范围T≥ 1、在每个时间步n=1,2,T:决策者选择概率分布xn=(xn,1- xn)关于她的行为A。
|