楼主: 何人来此
1676 57

[量化金融] 2 x 2游戏中学习动力的分类 [推广有奖]

21
可人4 在职认证  发表于 2022-5-31 03:07:42
此外,这种学习规则总是收敛于循环博弈的唯一混合固定点,与围绕同一固定点的标准复制因子动力学相反(从图中看,这一结果并不明显,因为需要取极限α→ 0,β→ 0,s.t.α/β是有限的)。有趣的是,在这种情况下,较短的内存使固定点更可能是稳定的,与加权随机效应播放(κ=0,δ=1)的情况相比。记忆对稳定性的影响在κ=0.25,δ=1平面上变得更加模糊。这里,对于与绿色和红色区域兼容的β值(即(α,β)平面中两次切割两个区域边界的水平线),更短或更长的内存可能会使唯一的混合固定点不稳定。定义边界的函数斜率的转换精确地发生在α=κ=0.25处。在协调和优势博弈中,固定点的特征介于κ=0和κ=1之间。最后,我们确定κ=1和α=0,并探索(δ,β)平面。在这种情况下,参数β对固定点没有影响,而是由δ确定。在协调对策中,当δ>1/5时,EWA动力学总是收敛到两个纯NE中的一个。然而,当δ<1/5时,它可以收敛到对应于剩余两个纯策略文件的固定点。更有趣的是,在我们所考虑的囚徒困境主导可解博弈中,相同的收敛到不存在的固定点。当δ>2/3时,学习动力的唯一固定点是(sR,sC)动作文件,这也是游戏的唯一性。这一NE比(sR,sC)弱,但玩家无法在帕累托最优行动计划上进行协调,因为他们考虑放弃支付,以免偏离sRorsC。

22
何人来此 在职认证  发表于 2022-5-31 03:07:45
然而,当δ<2/3时,他们忽略了放弃的支付“足够”使(sR,sC)成为一个稳定的固定点。梅西(1991)和梅西与弗拉奇(2002)也给出了类似的论点,他们分析了密切相关的布什-莫斯特勒学习算法(布什和莫斯特勒,1955),重点是囚犯困境博弈。他们引入了随机共谋的概念:两个参与者汇聚到一个合作定点,并保持合作,因为他们没有意识到单方面叛逃会更有回报。在不同的背景下,我们的分析再现了这一结果。(如引言所述,如果学习动力学被解释为代表大量学习代理中的一种互动,那么我们的结果很可能与实验相关。)最后一点是,在图2所示的周期图中,当δ<0.25时,学习收敛到多个纯策略中的一个。在其他循环博弈中,它可能会收敛到位于策略空间边缘和中心的各种固定点之一(第7.3节)。5初步步骤在本节中,我们准备分析EWA学习的结果。我们首先讨论了一些有助于分析的简化方法(第5.1节)。然后,我们介绍了探索参数空间的计划(第5.2节)。5.1简化作为第一个简化,我们关注学习的长期结果,并假设经验N(t)取其固定点值N?=1/(1)- (1)- α) (1)- κ) )。只要(1-α) (1)-κ) <1,但在实践中,对于大多数值,除非α=0和κ=0,否则该限制始终有效,如在标准和加权有效区中。

23
能者818 在职认证  发表于 2022-5-31 03:07:49
然而,通过取极限α,可以事后恢复这些学习规则的收敛性→ 稳定性分析中的0(见第7.2节)。参数,N?在几个时间步后到达。将上述固定点代入(3),更新规则变为平方ui(t)=(1-α) Qui(t-1) +[1- (1)- α) (1)- κ) ][δ+(1- δ) I(suI,su(t))]πu(suI,s-u(t))。(5) 我们的第二个简化是对学习动态进行确定性限制。通常,学习动力本质上是随机的。事实上,当从反复玩阿加梅中学习时,在每一轮中,球员只能观察对手的一个动作,而不能观察她的混合策略。对手选择的动作是从其混合策略向量中随机采样的,因此学习动态本质上是有噪声的。在本文中,“确定性近似”指的是,玩家在更新其吸引力之前,会相互对抗一定次数,因此他们的行为的经验频率与他们的混合策略相对应。克劳福德(Crawford,1974)早就提出了这种观点,康利斯克(Conlisk,1993)在“两个房间的体验”方面也证明了这一点:玩家只能通过电脑控制台进行互动,并且需要在知道对手的动作之前指定一些动作。该假设从理论角度来看是有用的,并且在大多数情况下不会影响结果(第7.4节):允许噪声时的唯一区别是动力学特性的模糊。考虑到玩家列使用混合策略y(t),我们将∏Ri(y(t))写入玩纯策略sRiat时间t对玩家行的预期回报。例如,对于sRi=sR,预期收益为∏R(y(t))=ay(t)+b(1- y(t))。类似地,我们为《玩动作sCj》中的“玩家预期报酬”列写∏Cj(x(t)),为玩家行的固定混合策略x(t)。

24
mingdashike22 在职认证  发表于 2022-5-31 03:07:51
指示符函数I(suI,su(t))可以由相应的混合策略组件代替,例如I(sR,sR(t))→ x(t)。可以组合等式。(4) 和(5)来表示x(t),y(t)的闭映射。x(t+1)=x(t)1-αeβИκ[δ+(1-δ) x(t)]∏R(y(t))x(t)1-αeβИκ[δ+(1-δ) x(t)]∏R(y(t))+(1-x(t))1-αeβИκ[δ+(1-δ) (1)-x(t))]πR(y(t)),y(t+1)=y(t)1-αeβИκ[δ+(1-δ) y(t)∏C(x(t))y(t)1-αeβИκ[δ+(1-δ) y(t)]∏C(x(t))+(1-y(t))1-αeβИκ[δ+(1-δ) (1)-y(t))]πC(x(t)),(6)式中▽κ=1-(1)-α) (1)- κ) 。通过取极限α,我们可以得到等式(6)的连续时间版本→ 0和β→ 0,因此α/β的比率是有限的。更多详情见补充附录1。当δ=1且α=0时,β→ 0,EWA学习简化为复制器动力学的标准形式。当α>0(虽然很小)时,EWA减少为具有有限记忆的复制子动力学的一般形式(Sato and Crutch field,2003;Galla and Farmer,2013)。我们的第三个简化只有在玩家充分考虑放弃支付时才有效,即δ=1。在这种情况下,可以引入简化动力学的坐标变换,并有助于使EWA的研究在分析上易于处理。具体而言,我们引入了转换x=-ln公司x个- 1.,y=-ln公司y- 1.,(7) 仅对战略空间x,y内部的x,y有效∈ (0,1)。从数学上讲,这种坐标变换是一种差同态;这使得DynamicBloom油田的属性(1994)在实验装置中实现了这一想法。Cheung和Friedman(1997)还考虑了一个匹配协议和一个群体设置,在这个群体中,球员与其他群体中的所有球员匹配。这在激发混合策略方面也有类似的效果。雅可比或李雅普诺夫指数等系统不变(Ott,2002)。

25
何人来此 在职认证  发表于 2022-5-31 03:07:54
原始坐标限制为x(t)∈ (0,1)和y(t)∈ (0,1),整个实轴上的变换坐标INSTEADTAK值。纯策略(x,y)∈ {(0,0),(0,1),(1,0),(1,1)}在原始坐标中映射到(▄x,▄y)∈ {(±∞, ±∞)} 在变换后的坐标中,0映射到-∞ 和1映射到+∞ (但对于这些值,转换无效)。根据变换后的坐标(并假设δ=1),地图(6)的读数为x(t+1)=(1-α) x(t)+β[1- (1)-α) (1)-κ) ](A tanh▄y(t)+B),▄y(t+1)=(1- α) y(t)+β[1-(1)-α) (1)- κ) ](C tanhx(t)+D),(8)式中=(a+D-b-c) ,B=(a+B-c-d) ,C=(e+h-f- g) ,D=(e+f- g级- h) 。(9) 等式(8)强调,当δ=1时,游戏仅通过四种支付组合A、B、C和D进入。广义上,参数A的正值表示玩家行对类型(sR,sC)或(sR,sC)的结果相对于结果(sR,sC)和(sR,sC)的参考。同样,C的正值表示玩家列对结果(sR,sC)或(sR,sC)的偏好。这些动作组合是Payoff矩阵主对角线上的动作组合。相反,如果A为负,则玩家行更喜欢payoff矩阵中的off-对角线组合,同样,当C为负时,玩家列更喜欢off-对角线组合。对角线或反对角线组合的这些偏好强度由球员行的模量| A |和球员列的模量| C |决定。参数B是衡量玩家行的第一个动作相对于秒的优势,类似地,D衡量玩家列的第一个动作相对于秒的优势。2×2博弈的类也可以基于a、B、C和D建立。命题1。考虑一个两人两幕的游戏。

26
能者818 在职认证  发表于 2022-5-31 03:07:57
以下陈述认为:(i)如果| B |>A |或| D |>C |,则博弈是优势可解的;(ii)如果(i)中的任何条件均不成立,且除A>0、C>0外,支付矩阵描述了协调博弈;(iii)如果(i)中的任何条件均不成立,且A<0,C<0,则支付矩阵描述了反协调博弈;(iv)如果(i)中的任何条件均不成立,且A和C具有相反的符号(即AC<0),则游戏是循环的。为了证明命题1,有必要检查A、B、C和D上的限制是否转化为表1第二列中的不等式,反之亦然,相同的性质意味着A、B上的条件,C和D。我们在补充附录S2.1.5.2参数空间探索计划中给出了一个证明。我们的挑战是在13维参数空间中描述学习行为(八个参数a、b、C、D、e、f、g、h;四个学习参数α、β、δ和κ;以及学习规则的规定,可以是确定性的或随机的)。由于EWA的非线性,我们无法获得学习动力学作为所有参数组合函数的闭合形式表征。因此,我们遵循表2中概述的模块策略。在第6节中,我们从一个基线场景开始,例如第6节支付函数sαβδκ规则分析基线6A=±C,B=±D-δ=1κ=1 DET AN SimArbitraryPayof 7.1 a,B,C,D-δ=1 DET AN Belidence learning 7.2 a,B,C,D-δ=1-DET AN EnforcementLearning 7.3a,B,C,D,e,f,g,hα=1-κ>0 DET AN Transtochasting 7.4 a,B,C,D--δ=1κ=1 STOCH模拟表2:参数空间探索计划。如果参数未设置为任何值(-),这意味着原则上我们充分分析参数可以采用的每个值的动力学。我们从基线场景开始,其中只有四个参数没有固定。

27
可人4 在职认证  发表于 2022-5-31 03:08:01
然后,我们遵循模块化策略,因为在每种情况下,我们都会探索一次改变一个或多个参数的效果。例如,wename“任意支付”的情况探索了放松约束A=±C和B=±D的效果。在δ=1的所有情况下,支付可以减少到组合A、B、C、D,因此我们仅指出这些参数;对于我们称之为“强化学习”的场景,这是不可能的,因此我们指出了所有的Payoff sa、b、c、d、e、f、g、h。最后两列显示了学习规则是随机的(STOCH)还是确定性的(DET),以及我们的结果是分析的(AN),是从模拟(SIM)中获得的,还是同时从模拟(AN-SIM)中获得的。哪些动力学是确定性的,只有四个参数没有固定的值:这些是支付组合a和B(C和D被限制为与a和B相等或相反的符号),记忆损失α和选择强度β。我们将此场景视为基线,因为它是一个参数数量最少的场景,这使得它成为比较其他参数化的明确基准。在基线情况下,我们以闭合形式或固定点方程的数值解分析获得了大多数结果。我们还通过模拟无固定点稳定时的学习动力学得到了一些结果。然后,我们考虑各种扩展,探索在保持其他参数不变的情况下更改一个或多个附加参数的效果。例如,在第7.1节中,我们放松了A=±C和B=±D的限制,并考虑了不同的支付组合对这两个参与者的影响。在第7.2节中,我们进一步放宽了κ=1,并充分探讨了在0到1之间的时间间隔内改变κ的影响(特殊情况下κ=0对应于信念学习)。

28
何人来此 在职认证  发表于 2022-5-31 03:08:04
在第7.3节中,我们让δ在0和1之间变化,用α=1表示分析方便性(具体情况δ=0对应于强化学习)。在第7.4节中,我们分析了随机学习,放松了第3节中解释的确定性近似。虽然大多数扩展的结果都是分析性的,但我们通过仿真研究随机学习。为什么我们关注这四个扩展,而我们可以研究更多,这取决于我们变化和固定的参数组合?一个原因是,我们认为这四种情况在概念上最有趣。weargue的另一个原因是,应该可以定性地理解整个参数空间中的学习行为,将其作为我们研究的场景的叠加,然后可以将其视为最相关的场景。我们对S2.5.6基线场景中的真实情况给出了一些论证。我们首先分析了表2中所述基线场景中EWA学习的渐近动力学。在第6.1节中,我们分析了固定点的存在性和稳定性,而在第6.2节中,我们模拟了所有固定点都不稳定的环境中的学习动态。6.1固定点分析6.1.1纯策略固定点如式(6)所示,所有纯策略文件均为EWA固定点。直观地说,一个完整的策略文件i、j对应于有限的倾向性qrian和QCj,而倾向性的有限变化(式5)没有影响。然而,除非α=0,否则所有纯策略固定点都是不稳定的。(如果α=0,则只有纳什均衡是稳定的纯策略固定点。)这在以下命题中有所陈述:命题2。考虑一般的2×2游戏和等式(6)中的EWA学习动态,δ=1,κ=1。纯战略的所有文件,(x,y)∈ {(0,0),(0,1),(1,0),(1,1)}是EWA的固定点。

29
mingdashike22 在职认证  发表于 2022-5-31 03:08:07
对于正记忆丧失,α>0,这些固定点总是不稳定的。当α=0时,如果纯策略固定点也是NE,则它们是稳定的,如果它们不是NE,则不稳定。命题2的证明见附录A.6.1.2对称博弈中的混合策略固定点SEWA也有一个或三个混合策略固定点,即策略空间内部的固定点。在下文中,我们描述了混合策略固定点的存在性和稳定性。为方便起见,我们从对称对策的情况开始:这意味着A=C和B=D。混合策略固定点在变换坐标中的位置,(¢x?,¢y?)可从重新排列公式(8)中获得。固定点是▄x?=ψR(¢x?)和▄y?=ψC(¢y?),式中ψR(¢x?)=βα棕褐色βα(C tanhx?+D)+ B,ψC(¢y?)=βαC tanh公司βα(A tanhy?+B)+ D.(10) 已经可以注意到,EWA参数α和β结合为α/β的比率。这在图2的(α,β)平面上调整了协调和优势博弈(对于κ=1,δ=1)中过渡的线性形状。此外,增加α/β或减少Payoff组合a、B、C、D之间存在缩放等效性,因为将α/β乘以一个常数,并将Payoff除以相同的常数,固定点方程保持不变。不动点和线性稳定性分析,因为在对称对策A=C和B=D中,依次是ψR(·)=ψC(·)=ψ(·)。根据游戏类别和学习参数,可以有一个或三个混合策略固定点。变换坐标(从公式(8)中获得)中地图的雅可比矩阵为j |x?,是吗=1.- αAβcosh(¢y?)Aβcosh(¢x?)1.- α!,(11) 在对称游戏中,玩家的身份并不重要,也就是说,玩动作suiagainst动作s对玩家u的支付-ujdoes不依赖于u。

30
大多数88 在职认证  发表于 2022-5-31 03:08:09
在公式中,这意味着∏R(sRi,sCj)=∏C(sRj,sCi),soA=C和B=D。我们强调,在本文中,对称对策只是简化分析的一个特例,对称性没有其他特殊之处。而▄x?=ψ(¢x?)和▄y?=ψ(¢y?)意味着▄x?和▄y?取相同的值,成对(▄x?,▄y?)通过替换原始定点方程(8)中的值来确定。特别是,当有三种解决方案时。(8) ,那么▄x?和▄y?可以取三个值,即对(▄x?,▄y?)不必是▄x?=y?。其特征值为λ±=1- α±| A |βcosh(¢x?)cosh(y?)。(12) 如果λ±<1,则固定点是稳定的。经过一些代数运算后,这就得到了稳定条件αβcosh(~x?)cosh(y?)- |A |≥ 0。(13)固定点的位置和稳定性我们现在可以分析固定点的存在、位置和稳定性,因为我们改变A和B,同时保持α/β=1。(同样,到目前为止,只有组合(β/α)A和(β/α)B起作用,因此改变α/β的值相当于重新调整支付比例。)通常不可能获得¢x?的闭式解?。因此,我们首先通过数值求解公式(8)来探索参数空间,然后提供一些可能获得闭式解的极限情况的结果。图3显示了我们改变A和B时固定点的属性,包括一些典型示例。纯策略NE附近的唯一固定点:在图3的案例(a)中,支付矩阵描述了一个优势可解的游戏,其中动作Sr和动作sC严格控制着动作Sr和sC。固定点由绿色圆圈表示,位于(x?,y?)=(0.95,0.95),非常接近独特的purestrategy NE at(1,1)(实心三角形)。固定点是稳定的。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-25 09:55