|
当β=0时,吸引力是不相关的,玩家以相同的概率随机选择他们的动作。3.1 EWA的特殊情况在这里,我们给出了EWA简化为其概括的学习规则的参数限制(图1)。当δ=0时,EWA减少为强化学习。一般来说,强化学习对应于这样一种观点,即玩家只会考虑他们所获得的回报来更新他们的吸引力,因此忽略放弃的回报。文献中已经考虑了强化学习的各种规格。例如,在Erev和Roth(1998)中,景点与概率呈线性映射,而Mookherjee和Sopher(1994)则考虑了logit映射inEq。(4) 。根据κ的值,当κ=0时,可以进行平均强化学习,当κ=1时,可以进行累积强化学习。这两种情况的不同之处在于,在平均强化中,玩家考虑给定回合和过去景点的加权平均回报,而在累积强化中,他们在不打折过去景点的情况下累积所有回报。情况α=1,β=+∞, δ=1,对于κ的所有值∈ [0,1]是最佳响应动力学。在最佳反应动力学下,每个玩家只考虑对手的最后一个动作(之前表演的记忆完全丧失,α=1),并确定地对该动作做出最佳反应(β=+∞). 要做出最佳反应,通常需要充分考虑玩家在前一轮游戏中没有采取的行动(δ=1)。值ρ∈ [0,1]通过选择合适的κ。下面,我们将重点讨论κ∈ [0,1],但我们的分析可以很容易地扩展到κ的一般值。情况α=0,β=+∞, δ=1(和κ=0)对应于活动间隙。
|