楼主: 何人来此
1673 57

[量化金融] 2 x 2游戏中学习动力的分类 [推广有奖]

11
大多数88 在职认证  发表于 2022-5-31 03:07:12
对于每一类游戏,我们还提供了一个示例Payoff矩阵∏,以及NE在空间中的位置,该空间由概率x和y分别定义,以执行动作Sr和Sc。其他at(sR、sC)。此外,还有一种混合策略NE。协调游戏的两个著名例子是猎鹿和两性之战(Osborne和Rubinstein,1994)。反协调游戏也有两种纯策略和一种混合策略NE,但在纯策略NE中,玩家选择具有不同标签的策略,即(sR,sC)和(sR,sC)。一个著名的反协调游戏的例子是鸡。循环游戏。这些对应于顺序a>c,e<g,b<d,f>h或a<c,e>g,b>d,f<h。这种类型的游戏的特点是一个最佳回复周期。例如,如果考虑第一组排序,则列toplay sC对SRI的最佳响应。在响应中,行将选择sR,列将播放sC,并且过程将永远不会收敛到固定点。循环对策有唯一的混合策略NE,没有纯策略NE。典型的循环博弈是匹配便士,这是一种零和博弈,但循环博弈一般不需要是零和或常和。支配可解游戏。这些订单包括所有剩余的12个订单。这些游戏有一个独特的纯策略NE,可以通过消除支配策略获得。例如,如果a>c,e>g,b>d,f>h,则NE是(sR,sC)。众所周知的保护者困境是一个2×2优势可解博弈。(表1所示的优势可解博弈是一个囚徒困境。)我们的部分分析将基于对称博弈,一旦对称约束被强制执行,反协调博弈和协调博弈的一些性质将变得不同。

12
可人4 在职认证  发表于 2022-5-31 03:07:15
因此,为了说明清楚,我们将协调博弈与反协调博弈区分开来。3经验加权吸引学习经验加权吸引(EWA)由Camerer和Ho(1999)引入,概括了两大类学习规则,即强化学习和信念学习。通常假设使用强化学习的玩家根据这些动作在过去游戏中产生的表现来选择自己的动作。相反,使用信念学习的玩家通过构建一个他们认为对手将要玩的动作的心理模型来选择他们的动作,并对这个信念做出反应。Camerer和Ho(1999)指出,这两类学习规则限制了更一般的学习规则,即EWA。联系在于玩家是否考虑在更新中放弃支付。如果他们这样做了,对于一些参数,EWA将简化为信念学习。如果他们不这样做,就会减少对学习的强化。EWA在这两个极端之间进行插值,并允许更一般的学习规范。我们考虑一个在离散时间t=1,2,3,…,重复玩的游戏。。在EWA中,玩家在每个时间步更新两个状态变量。第一个变量N(t)被解释为经验,因为它随着游戏的进行而单调增长。经验的主要直觉是,游戏玩得越多,相对于过去玩相同动作的经验,玩家可能越不愿意考虑通过玩某些动作获得的新回报。第二个变量Qui(t)是玩家u对动作sui的吸引力(每个动作有一个吸引力)。吸引力的增加或减少取决于实现或放弃的回报是积极的还是消极的。更正式地说,经验N(t)更新如下:N(t)=ρN(t-1) +1。

13
可人4 在职认证  发表于 2022-5-31 03:07:18
(2) 在上面的等式中,游戏的每一轮都会增加一个单位的经验,尽管之前的经验会被系数ρ打折。当ρ=0时,经验永远不会增加,而ρ=1表示经验无限增长。对于所有其他值ρ∈ (0,1),N(t)最终收敛到由N?=1/(1)- ρ) 。每轮比赛后,景点更新如下:Qui(t)=(1- α) N(t)-1) Qui(t- 1) N(t)+[δ+(1- δ) I(suI,su(t))]πu(suI,s-u(t))N(t)。(3) 第一学期将为之前的景点提供折扣。记忆丢失参数α∈ [0,1]确定以前的景点打折的速度:当α=1时,玩家立即放弃所有以前的景点,而α=0表示不打折。第二学期inEq。(3) 是作用sui的吸引力增益或损失。术语∏u(sui,s-u(t))是玩家u将从playingaction sua获得的对动作s的报酬-u(t)实际上是由其他玩家在时间t时选择的。我们注意到,我们尚未指定u是否实际玩过suior。参数δ∈ [0,1]控制u的动作吸引力如何更新,这取决于玩家udidor是否玩过特定动作。术语I(suI,su(t))是指示符函数,如果玩家u在时间t内完成动作,则返回1,否则返回0。因此,如果δ=1,则玩家u对其所有动作的吸引力都会以相等的权重进行更新,无论u玩的是什么动作。也就是说,玩家会考虑已放弃的支付。另一方面,如果δ=0,则只会更新实际玩过的动作的吸引力。中间值0<δ<1在这些极值之间插值。无论玩家是否考虑放弃支付,当经验N(t)较大时,等式(3)中的第二项都很小。

14
mingdashike22 在职认证  发表于 2022-5-31 03:07:20
这正式证明了上述直觉,即经验丰富的玩家可能不会重视新体验的支付。在更新经验公式(2)中,我们遵循Ho等人(2007),并将参数ρ重新定义为ρ=(1- α) (1)- κ) 。由于参数κ∈ [0,1]可以更清楚地在EWA概括的各种学习规则之间进行插值(见第3.1节)。由于α固定后,κ决定ρ,因此我们将κ称为经验贴现率。如果κ是不受限制的,这就不会失去一般性,因为除了α=1之外,可以获得任何最佳响应dynamiclogit dynamics加权虚拟usplay随机虚拟usplayStandard虚拟usplayStandardReplicator dynamics有限内存replicatordynamics信息学习Logit dynamics图1:由EWA概括的学习规则。在这张图中,左侧显示了三个EWA参数:无记忆α、支付敏感性β和经验折扣κ。我们将剩余参数,即给定的权重乘以δ=1。在右边,我们fixκ=1,并显示其余参数α、β、κ。有关更多详细信息和学习规则的讨论,请参阅正文。在EWA中,混合策略是根据景点使用logit规则确定的,seeCamerer和Ho(1999)。例如,玩家行在时间t玩纯策略的概率由x(t)=eβQR(t)eβQR(t)+eβQR(t),(4)给出,y(t)也有类似的表达式。参数β≥ 在离散选择模型中,0通常被称为选择强度;它量化了玩家在选择动作时,考虑不同动作的吸引力的程度。在极限β内→ ∞, 例如,玩家严格选择吸引力最大的动作。

15
kedemingshi 在职认证  发表于 2022-5-31 03:07:23
当β=0时,吸引力是不相关的,玩家以相同的概率随机选择他们的动作。3.1 EWA的特殊情况在这里,我们给出了EWA简化为其概括的学习规则的参数限制(图1)。当δ=0时,EWA减少为强化学习。一般来说,强化学习对应于这样一种观点,即玩家只会考虑他们所获得的回报来更新他们的吸引力,因此忽略放弃的回报。文献中已经考虑了强化学习的各种规格。例如,在Erev和Roth(1998)中,景点与概率呈线性映射,而Mookherjee和Sopher(1994)则考虑了logit映射inEq。(4) 。根据κ的值,当κ=0时,可以进行平均强化学习,当κ=1时,可以进行累积强化学习。这两种情况的不同之处在于,在平均强化中,玩家考虑给定回合和过去景点的加权平均回报,而在累积强化中,他们在不打折过去景点的情况下累积所有回报。情况α=1,β=+∞, δ=1,对于κ的所有值∈ [0,1]是最佳响应动力学。在最佳反应动力学下,每个玩家只考虑对手的最后一个动作(之前表演的记忆完全丧失,α=1),并确定地对该动作做出最佳反应(β=+∞). 要做出最佳反应,通常需要充分考虑玩家在前一轮游戏中没有采取的行动(δ=1)。值ρ∈ [0,1]通过选择合适的κ。下面,我们将重点讨论κ∈ [0,1],但我们的分析可以很容易地扩展到κ的一般值。情况α=0,β=+∞, δ=1(和κ=0)对应于活动间隙。

16
能者818 在职认证  发表于 2022-5-31 03:07:27
与最佳反应动力学不同的是,玩家对对手行为的经验分布有明确的记忆和最佳反应,他们将其作为对手固定策略的估计。虚构游戏由Brown(1951)和Robinson(1951)提出,作为发现游戏内线的方法,后来被解释为一种学习规则。重新定义有限记忆假设,以α为例∈ (0,1)对应于加权的fictiousplay,因为最近的游戏历史在估计对手的混合策略时具有更大的权重。相反,如果α=0,但β<+∞, 玩家并没有确定地选择最吸引人的动作,而是随机进行。最佳反应动力学和主动游戏都是信念学习的实例,因为在这两种情况下,玩家都会形成对对手的信念,并对这些信念做出反应。等式(3)中可能没有这一点,它以一种更接近强化学习的方式更新了吸引力。然而,Camerer和Ho(1999)表明,只要δ=1和κ=0,给定信念的预期支付动态与EWA动态是相同的。第一个条件是直观的:为了计算预期收益,玩家需要同时考虑他们玩过的动作和没有玩过的动作。第二个条件更具技术性:它要求景点和体验的折扣率相同。EWA概括的另一个学习动态是复制器动态。极限β→ 0,α=0,δ=1和κ∈ (0,1),导致两个种群复制子动力学(推导见补充附录S1)。相反,假设α为正,但很小,即α→ 0(s.t。

17
大多数88 在职认证  发表于 2022-5-31 03:07:30
α/β比值是有限的)我们得到了一个广义的具有有限记忆的双种群复制子动力学,最初由Sato和Crutch field(2003)提出。最后,当α=1、δ=1和κ=1时,EWA是所谓的逻辑动力学的离散时间版本;当α=0、δ=1和κ=1时,它减少到所谓的模拟或i-logitdynamics。然而,应该注意的是,这两种动力学通常都是在连续时间内研究的(Sandholm,2010)。4概述我们继续概述。我们的目标是让读者对结果及其在文献中的地位有一个比导言更深入的理解,而无需从第5节开始深入数学分析的技术细节。我们讨论了如何在图1中保留参数空间的边界,以提供在关注EWA概括的学习算法时可能会遗漏的新见解。我们从κ=0,δ=1的情况开始。这对应于图1左面板中的下平面,其中EWA简化为各种形式的信念学习。在这里,众所周知,在所有支配可解对策中,最佳反应动力学总是收敛于纯策略NE;它可以在协调和反协调博弈中收敛到纯均衡,但根据初始条件,它也可能在非均衡的纯策略博弈之间来回“跳跃”;在循环博弈中,它总是围绕着纯策略进行循环。相反,在所有非退化的2×2游戏中,游戏都会收敛到NE(其中之一)(宫泽明,1961;蒙德里尔和塞拉,1996)。这在加权游戏中不再适用,因为斯塔尔(1988)表明,这种学习过程在周期游戏中不会收敛,但在所有其他2×2游戏中会收敛到NE。

18
mingdashike22 在职认证  发表于 2022-5-31 03:07:33
最后,在随机游戏的情况下,学习收敛于量子反应平衡(McKelvey和Palfrey,1995;Fudenberg和Kreps,1993;Benaim和Hirsch,1999),最终内部的固定点,有限记忆和有限选择强度的组合,即α∈ (0,1),β<+∞, δ=1(再加上κ=0),导致加权随机效应。Camerer和Ho(1999)还讨论了对体验和景点初始条件的限制,N(0)和Qui(0)。初始条件对于理解实验游戏也很重要。在本文中,我们关注EWA的长期动力学,以便于分析可处理性,因此我们不强调初始条件的重要性。我们的推导与B¨orgers和Sarin(1997)和Hopkins(2002)不同,因为这些作者考虑了Erev和Roth(1998)提出的强化学习的一个版本,其中吸引力与概率成线性关系。我们使用logit表单。因此,我们得到了不同的连续时间限制。最佳响应DynamicLogit DynamicsStandardReplicator DynamicsWeighted虚拟播放标准虚拟播放随机虚拟播放标准Replicator DynamicsEnhancementLearningLimited MemoryReplicator DynamicsCoordinationGameDominanceGameCyclicGame图2:不同参数和游戏下学习结果的定性表征。我们考虑通过图1所示的参数空间进行四次切割。特别是,我们考虑由限制条件κ=0,δ=1确定的平面;κ=1,δ=1;κ=0.25,δ=1;κ=1,α=0。对于三个博弈,我们考虑了学习的渐近结果的所有可能性。

19
nandehutu2022 在职认证  发表于 2022-5-31 03:07:36
(i) 在青色地区,学习会收敛到一种多重NE;(ii)在蓝色区域,它会收敛到多个固定点中的一个,这些固定点位于纯NE或替代纯战略文件的“附近”;(iii)在橙色地区,它收敛到一个独特的纯策略NE;(iv)在yellowzones,学习达到一个独特的固定点,该点靠近纯NE或另一个纯策略文件;(v) 在绿色区域,它会收敛到战略空间中心的一个固定点;(vi)在红色区域,它不会收敛到任何固定点。在右边,我们展示了EWA简化为其推广的算法的参数限制。战略空间。我们对参数空间的系统化描述将所有这些结果恢复为特例,精确地描述了固定点的位置和稳定性。例如,在随机博弈(α=0)和协调博弈的情况下,我们表明,随着β变小(从蓝色区域过渡到黄色区域),帕累托次纯NE附近的固定点消失,最终对于非常小的β,唯一稳定的固定点位于参数空间的中心。此外,我们还表明,对于α和β的一般值(即平面内部),记忆损失α并不决定协调和优势博弈中固定点的位置和稳定性。然而,它确实决定了循环对策中唯一混合策略固定点的可确定性。特别是,当α增长时(即玩家的记忆变短),对于给定的β值,固定点很可能变得不稳定。随着β的增长,固定点也变得不稳定。

20
可人4 在职认证  发表于 2022-5-31 03:07:39
对于这些对κ和δ的限制,较短的记忆和对支付的更多反应导致玩家在混合策略固定点周围循环,而无法螺旋式进入。另一个有趣的例子是图1(左)中的上平面,对应于κ=1和δ=1。在这里,EWA简化为最佳响应动态、logit动态和replicatordynamics。logit动力学在协调和优势博弈中达到量子响应平衡,在循环博弈中具有超临界Hopf分岔(Sandholm,2010)。标准(两种群)复制子动力学在2×2博弈中得到充分描述(Hoffauer和Sigmund,1998)(第10章)。它在所有2×2对策中收敛于NE,循环对策除外,循环对策中它围绕唯一的混合策略NE循环。加权游戏也很少被研究。Cheung和Friedman(1997)实验测试了加权随机游戏的种群动力学版本。它们还从理论上表明,对于参数β的某个值,在循环和收敛到平衡之间存在过渡。Benaim等人(2009年)也研究了加权随机游戏,但以α为界限→ 0,β→ ∞, 并找到他们提出的解决方案概念的一致性。我们的分析再次再现了这些结果。例如,可以看到α=1处的唯一固定点失去了β的固定值的稳定性,这表明可能正在发生跳跃分叉。我们的分析还可以获得新的结果。在协调和优势博弈中,我们发现固定点属性作为α和β的线性函数变化,即α/β的比率才是关键。在(α,β)平面的左下角矩形中也是如此,该矩形表示复制子动力学的细节。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-25 05:40