楼主: 何人来此
1672 57

[量化金融] 2 x 2游戏中学习动力的分类 [推广有奖]

31
能者818 在职认证  发表于 2022-5-31 03:08:12
如第6.1.1节所述,所有纯策略文件都是不稳定的固定点(青色圆圈)。纯策略NE附近的多个稳定固定点:案例(b)和(d)分别是反协调和协调博弈的例子。正如三角形所示,这两场比赛中的每一场都有三个NE。在每个例子中,一元包含一个混合策略,而另外两个平衡点是纯策略NE。在这两种情况下,A和B的值都有三个固定的EWA学习点。对于这两个例子,都存在一个“中心”固定点,位于混合策略NE附近,在学习动态下不稳定(靠近策略空间中心的青色圆圈),以及两个稳定的“横向”固定点。这两种情况之间的重要区别在于,(b)中的纯策略也接近帕累托均衡,而(d)(sR,sC)中的纯策略既是NE均衡又是帕累托均衡。这将在A>0和A<0半平面之间生成不对称性。当A>0且B变大时,帕累托系数NE和帕累托系数NE之间的支付差异增大。最接近帕累托系数的稳定横向固定点与不稳定的中心固定点重合,产生褶皱分叉,其中两个固定点均消失。有效地,积极的记忆丧失和非有限报酬敏感性可以防止学习动力陷入“局部最小值”,并有助于达到帕累托效率。远离纯策略的唯一固定点:案例(c)对应于(a)这样的优势博弈,但回报比前一个例子要小。由于回报较小,学习的动机也较少:与案例(a)相比,EWA学习的唯一稳定固定点更接近战略空间的中心。分析结果:我们对一些具体案例进行了一些分析结果。

32
nandehutu2022 在职认证  发表于 2022-5-31 03:08:16
我们首先设置B=0。图3中蓝色和绿色区域之间的边界位于A=-1注意,这里协调和反协调博弈之间的差异是对称假设A=C和B=D的产物。实际上,是一个带有payoff矩阵的反协调博弈1、1、5、54、4、1、1isasymmetric,但在帕累托效率方面与情形(d)完全等价。另见脚注5。图3:在固定α/β=1的特殊情况下,A=C,B=D(对称摄影机)参数空间的定量表征。图中的实心黑线将反协调对策、优势可解对策和协调对策的区域分开。不同的颜色与不同的学习动力有关。在蓝色区域,存在多个稳定(混合策略)固定点。在绿色/黄色区域,只有一个稳定的固定点。通过线性插值,颜色梯度反映固定点与策略空间中心的距离:随着(a,B)平面中的点变得更黄,执行点变得更接近纯策略文件。边框上(a)至(d)的注释指的是右侧所示的规格图。对于每个博弈,我们显示其支付矩阵、A和B的值以及(x,y)平面上固定点的位置和稳定性。绿色圆圈是稳定的固定点;青色圆是不稳定的固定点;灰色三角形为NE。A=1。从数学上讲,这些边界标记了横向固定点存在的点(它们出现在蓝色区域,但不在绿色区域)。

33
能者818 在职认证  发表于 2022-5-31 03:08:19
通过计算u=0时ψ(u)的斜率,可以看出,如果βα| A |不存在横向固定点≤ 1,(14)直接通向图3中的边界A=±1(图中的α/β=1)。当βα| A |→ +∞, ψ(¢x?)接近等于的阶跃函数-βα| A |在负域中,βα| A |在正域中,因此与| x?直线精确出现在¢x?=0和▄x?=±βα| A |。回顾从变换坐标到原始坐标的映射,这些交点对应于x=0、x=1/2和x=1。通过对y使用相同的论点,很容易看出,固定点是协调/反协调博弈的纯策略,以及策略空间中心的混合均衡。在图3中,情况(b)和(d)近似于这种情况。我们现在考虑B 6=0。如果βα| B |→ +∞ 和B A、 ψ(¢x?)完全等于ψ(0)=βαB。这也是唯一固定点x?的位置?。作为▄x?→ ±∞(取决于B的符号),x→ 0、1和固定点对应于唯一的purestrategy NE。图3中的情况(a)近似于这种情况。稳定性在下面的命题中讨论。提案3。在对称2×2游戏中,当学习参数取基线场景中的值时(表2),以下结果成立:(i)如果B=0,βα| A |≤ 1,唯一的中心固定点是稳定的。(ii)如果B=0且βα| A |→ 1+或βα| A |→ +∞, 中心固定点变得不稳定,横向固定点稳定。特别是,在βα| A |=1时,会发生超临界干草叉分叉。(iii)如果βα| B |→ +∞ 和B A、 唯一固定点是稳定的。证明见附录B。

34
kedemingshi 在职认证  发表于 2022-5-31 03:08:22
总之,在对称2×2博弈中,至少有一个固定点始终是稳定的,至少在命题所涵盖的极限情况下是稳定的(但上面的数值分析表明,命题中的结果也适用于中间值)。6.1.3非对称博弈中的混合策略固定点我们关注一种特定类型的非对称博弈,其中非对称性仅源于支付的符号。这些博弈由条件∏R(sRi,sCj)=-∏C(sRj,sCi),表示A=-C、 B=-D、 请注意,该条件通常不定义零和博弈,而定义为等式∏R(sRi,sCj)=-∏C(sRi,sCj)。在此定义下,如果B>A,则博弈是优势可解的,但如果A>B,则存在循环博弈。固定点和稳定性:如前一节所述,我们首先写下固定点存在和稳定的条件,然后在改变学习参数和支付时研究其性质。当A=-C、 等式。(10) 最多有一个解决方案,因为右侧的函数单调递减。此外,如果B 6=0,我们通常有x?6=¢y?。雅可比矩阵(11)的特征值为复数,形式为λ±=1- α±iβ| A | cosh(¢x?)cosh(y?)。(15) 稳定性条件为:β√2α- α| A | cosh(¢x?)cosh(y?)≤ 1.(16)这种稳定性条件不同于等式(12)中的对称对策。事实上,重要的不仅仅是α/β的比值,还有这些参数更复杂的函数。一般来说,增加α或β对稳定性的影响与增加α/β比率的影响相同,但当取极限α时,β→ 0(使得比值α/β是有限的),上述方程的左侧变为零,因此固定点总是稳定的。

35
大多数88 在职认证  发表于 2022-5-31 03:08:25
这与复制因子动力学一致,有限记忆总是收敛到混合策略执行点(见补充附录S1),但这可能是任意远离纳什均衡的。典型行为的例子:在图4中,我们说明了不对称博弈的不同可能结果,正如我们在图3中对对称博弈所做的那样。示例(a)是一个支配可解游戏。learningdynamics收敛到接近纯策略NE的唯一固定点,类似于图3中的案例(a)。在案例(b)中,我们有一个循环博弈,其payoff值相对较低。在对称博弈中,payoff值较低意味着策略空间中心的固定点(不一定对应于NE)是稳定的。案例(c)与案例(b)相似,但收益更大。更高的激励使球员对对手的行为反应过度,这使得所有固定分数都不稳定。learningdynamics被困在极限环中,或者对于某些参数,被困在混沌吸引子中,如我们将在第6.2节所示。循环博弈-匹配分币:这些非对称博弈和零和博弈仅当∏R(sRi,sCj)=∏C(sRi,sCj)=0,i 6=j时才对应。这里我们只找到了(x?,y?)-唯一潜在稳定的固定点-失去稳定性。当特征值穿过单位圆时,可以证明动力系统经历了超临界Hopf分岔(或Neimark-sackerbif分叉)。然而,证明涉及计算所谓的Firstlyapunov系数,该系数需要大量代数知识,无法提供任何见解,因此我们在此不提供证据。相反,我们使用数值模拟来表明Hopf分岔确实是超临界的。图4:A=-C和B=-D、 对于α=β=0.8。

36
何人来此 在职认证  发表于 2022-5-31 03:08:28
该图的解释与图3相同。在参数空间的红色部分,没有固定点是稳定的,学习动力学遵循极限环或混沌。接下来,我们将重点讨论循环游戏的一个特定示例,匹配便士。这是一个零和游戏,其中一个玩家获得一枚硬币,而另一个玩家失去了硬币(Osborneand Rubinstein,1994)。所得支付矩阵意味着B=D=0,C=-A、 学习动力有一个唯一的固定点,位于(x?,y?)=(0,0)。替换公式(16),我们发现如果β√2α- α| A |≤ 1.(17)对于图4中使用的α和β值,固定点对于A?=1.224。这对应于OFIG底部B=0的绿色和红色区域的边界。综上所述,在由约束定义的非对称博弈中,A=-C和B=-D、 存在一个稳定的固定点,除非A>B,在这种情况下,固定点可能失去稳定性。6.2不稳定动力模拟迄今为止的所有分析都是关于固定点的局部稳定性。现在,我们模拟动力学来评估全局稳定性,并检查当所有固定点都不稳定时,会出现哪种类型的动力学。在对称博弈中,除了一种情况外,动力学总是收敛到一个稳定的固定点。当β较大时,α较小且| A | |B |(协调或反协调博弈),对于一些接近非NE的行动文件的初始条件,有可能观察到周期2的稳定极限环。在这个循环中,玩家在纯策略文件之间“跳跃”,而这些文件不是协调/反协调游戏的一部分。这并不奇怪,因为这些参数限制使EWA非常类似于最佳响应动力学(见第3.1节)。

37
何人来此 在职认证  发表于 2022-5-31 03:08:31
由于这种动态在行为上是不切实际的,并且对仓促性不强——一个玩家“颤抖”并且动态收敛到那一点就足够了——我们在剩下的分析中忽略了它。它只是确定性近似的产物。在所有EWA固定点都不稳定的非对称博弈中,我们观察到的是行为上更现实的战略波动。为了说明不稳定解的性质,图5显示了一些α、β、A和B值的学习动力学示例。在面板(A)至(c)中,我们有A=-C=2,B=D=0,而在面板(D)中,我们考虑A=-C=-3.4和B=-D=-2.5.0.00.20.40.60.81.0(a)(b)900 920 940 960 980 10000.00.20.40.60.81.0(c)900 920 940 960 980 1000(d)tx,yFigure 5:学习参数和支付的四种不同组合的概率x(蓝色)和y(红色)的时间序列(详见正文)。出现周期性和混沌动力学。在小组(a)中,对于α=0.7和β=1,玩家经常改变策略,而在小组(b)中,对于α=0.01和β=0.1,动态更平稳。请注意,这两种情况下的α/β比率非常相似,但动力学却截然不同。这与本文的其余部分并不矛盾:只有EWA的定点行为由α/β比率决定。在面板(c)中,α=0.01,β=0.5,玩家花费大量时间玩一个动作,然后快速切换到另一个动作(因为他们有很长的记忆和很高的支付敏感性)。最后,在面板(d)中,我们选择B 6=0:这似乎产生了最不规则的动力学。在补充附录S2.2中,我们表明这些动力学是混沌的。7扩展我们现在考虑对基线场景的扩展(参见表2)。

38
可人4 在职认证  发表于 2022-5-31 03:08:34
在第7.1节中,我们考虑了支付不受A=±C和B=±D限制的游戏,因此支付的幅度可以不同于两个玩家。在第7.2节中,我们考虑了参数κ的值∈ [0,1)(在κ=0的情况下,我们恢复信念学习)。在第7.3节中,我们考虑δ∈ [0,1),在δ=0的情况下恢复强化学习。在第7.4节中,我们放弃了确定性学习的简化,并分析了随机学习动力学。这些扩展不包括第5.2节中描述的所有13维参数空间。正如其他地方所讨论的,本文无法全面探索参数空间;之前考虑的区域ns涵盖了EWA概括的学习算法之间许多有趣的转换。然而,在补充附录S2.5中,我们考虑了之前分析中未明确涉及的一些参数和支付组合。我们表明,对于所考虑的特定游戏和支付,我们能够基于基线场景和本节研究的场景定性地理解学习动态。虽然我们不能声称这在总体上是正确的,但我们认为这是一个令人鼓舞的迹象。7.1任意支付从学习的角度来看,A 6=C和B 6=D的游戏与同一类中约束A=±C和B=±D的游戏非常相似。例如,具有任意支付的优势可解游戏与具有约束支付的优势可解游戏非常相似。在补充附录S2.3中,我们展示了几个示例,其中一个玩家的支付大于另一个玩家的支付,导致支付最高的玩家在更接近策略空间边界的情况下使用混合策略。我们在命题2和等式(10)中的相同分析结果适用,并且可以通过替换| A |获得稳定性→√式中的AC。

39
mingdashike22 在职认证  发表于 2022-5-31 03:08:37
(13) 当AC>0时,以及在公式(16)中,当AC<0.7.2信念学习时,在公式中选择κ6=1。(6) 和(8)相当于重新调整支付灵敏度β,如下所示▄β=β[1- (1)- α) (1)- κ) 】。(18) 当k<1时,β乘以的数量小于1时,有效支付敏感性降低。因此,对于κ<1,学习动态通常更稳定,对于更大的参数组合集,会收敛到策略空间中心的固定点。对基线方案的所有分析仍然适用。在信念学习案例(κ=0)中,重新标度的Payoff敏感性为▄β=βα。这意味着固定点的坐标不依赖于α,见等式。(10) (如图2所示)。可以证明,固定点对应于博弈的量子响应平衡(QRE)。QRE由McKelvey和Palfrey(1995)引入,以允许有无限理性的玩家,特别是包括玩家犯错的可能性。这里是QRE x?那你呢?由∏R(y?)的解给出- ∏R(y?)=βln1- x?x?,∏C(x?)- ∏C(x?)=βln1- yy(19) 对于较小的β值,QRE位于策略空间的中心,而β值的增加使QRE更接近NE。在极限β内→ ∞, QRE与NE重合。κ=0时,稳定性条件为(在匹配便士游戏中)βα√2α- α| A |≤ 1.(20)与式(17)不同的是,左手侧相对于αispositive的导数,因此更长的记忆可以促进稳定性。对于一般κ,式(20)中的分子为β[1- (1)- α) (1)- κ) ,因此当α>κ时,导数为正。因此,记忆对稳定性的影响并非微不足道:在信念学习极限中,长记忆促进稳定性,但当α<κ时,长记忆促进不稳定性。

40
大多数88 在职认证  发表于 2022-5-31 03:08:40
据我们所知,我们是第一个确定这类学习规则中记忆对不稳定性的作用的人。在极限α内→ 0时,等式(20)的左侧变为零,因此确保了所有参数值的稳定性。对于β=+∞, 我们恢复了宫泽明(1961)和蒙德里尔与塞拉(1996)的著名结果,即在非退化2×2博弈中,竞争性博弈将收敛到NE。对于β的其他值,我们恢复了Fudenberg和Kreps(1993)以及Benaim和Hirsch(1999)的结果,即在2×2博弈中,随机效应将收敛于QRE。7.3强化学习我们现在放松约束δ=1,允许玩家对已经采取和没有采取的行动给予不同的权重。对于分析的可处理性,我们假设玩家拥有完美的记忆,α=0。我们还假设κ>0。(α=0时,β不能确定固定点的存在和性质,如图2所示;因此,我们可以只设置β=β[1-(1)-α) (1)-κ) ]=1。)由于我们无法使用坐标变换(7),我们直接从公式(6)中获得固定点。通过替换公式(6)中的参数限制,可以表明给定δ值没有潜在的十个固定点。我们在附录C中明确或隐含地给出了所有已执行点的表达式。四个固定点是纯策略,其中(x,y)等于(0,0),(0,1),(1,0)和(1,1)。在四个额外的固定点中,x理论为0或1,但并非两者都是,即这些固定点的形式为(0,y)、(1,y)、(x,0)和(x,1)。最后,两个固定点的x和y都不同于0和1,即(x,y)和(x,y)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-25 05:39