楼主: 何人来此
1674 57

[量化金融] 2 x 2游戏中学习动力的分类 [推广有奖]

41
nandehutu2022 在职认证  发表于 2022-5-31 03:08:43
只有纯策略文件是所有模型参数选择的固定点;其他固定点可能存在也可能不存在,这取决于δ或支付函数的选择。就稳定性而言,对于对应于纯策略模型(x,y)={(0,0),(0,1),(1,0),(1,1)}的每个固定点,我们指定雅可比矩阵在该固定点的两个特征值:(x,y)=(0,0)=(sR,sC)→eβ(bδ-d) ,eβ(fδ-h),(x,y)=(0,1)=(sR,sC)→eβ(aδ-c) ,eβ(hδ-f),(x,y)=(1,0)=(sR,sC)→eβ(dδ-b) ,eβ(eδ-g),(x,y)=(1,1)=(sR,sC)→eβ(cδ-a) ,eβ(gδ-e).(21)如果我们设置δ=1,我们得到与第6.1.1节中命题2相同的结果,即只有纯策略NE是稳定的。然而,通过δ<1,也可以通过有效地降低东北地区薪酬的“感知”价值(即,参与者没有意识到,如果他们单方面转换,他们可能会获得更高的薪酬),从而使其他纯战略利润潜在稳定。我们用一个例子来解释这一点。考虑行动文件(sR,sC),并假设(sR,sC)是一个NE。这意味着c>a,因此从等式(21)中,(x,y)=(1,1)的第一特征值大于δ=1的值。因此,纯战略文件(sR、sC)是不稳定的。但如果δ6=1,固定点不稳定的条件为δ- a>0,即c>a/δ。因此,如果a>0,则NE要成为EWA的唯一稳定固定点,NE处的Payoff必须比Payoff sat(sR,sC)大1/δ。在其他情况下,非NE也可以是稳定的固定点。从数学上讲,这意味着对于δ<1的情况,动力学可能会停留在局部极小值上,这很难证明合理性,因为每个参与者都可能通过切换动作来提高自己的收益。然而,由于玩家不考虑放弃支付,他们无法意识到这一点,并继续执行相同的操作。图6给出了明确的示例。

42
kedemingshi 在职认证  发表于 2022-5-31 03:08:46
轴x和y给出了δ特定值的执行点位置,纵轴δ显示了x和y如何随该参数变化。当线条为蓝色时,表示固定点稳定,当为红色时,表示固定点不稳定。绿色虚线表示NE。当NE与固定点重合时,线显示为蓝色或红色,并带有绿色虚线。在面板(a)中,游戏是支配可解的,唯一的NE在(x,y)=(1,1)(这是一个囚徒困境)。该NE对于δ的所有值都是稳定的,但帕累托最优纯策略文件(x,y)=(0,0)对于δ也是稳定的∈ [0,2/3]。立方体面上的(0,y)或(x,0)类型的其他解或(x,y)类型的解总是不稳定的。面板(b)中的情况类似,除了Payoff矩阵描述了具有twopure策略NE的协调博弈。对于δ<1/5或δ<1/4,其他两个纯策略模型是稳定的,可根据公式(21)计算得出。最后,案例(c)是一个具有最大固定点数的循环博弈,因为所有解都存在。当δ=0时,固定点(0,y)和(1,y)都是稳定的;随着δ的增加,(x,y)或(x,y)型(x,y<0.5)的溶液变得稳定。随着δ的进一步增加,纯策略比例(1,1)是稳定的,最终是x,y>0.5的类型(x,y)或(x,y)的解决方案变得稳定。对于δ>0.82,所有解如图6所示:当δ参数在0和1之间变化时,分叉图显示固定点(x,y)。蓝色(红色)线表示稳定(不稳定)的固定点。绿色虚线表示NE。δ值越低,越有可能出现与NE不一致的稳定固定点。不稳定,学习动态不会收敛到任何固定点。

43
能者818 在职认证  发表于 2022-5-31 03:08:49
请注意,在这个游戏中,没有稳定的固定点对应于NE,并且可以任意远。7.4随机学习在玩游戏时,除了非常特殊的实验安排(Conlisk,1993),真正的玩家在观察对手的单个动作后更新策略,因此他们不知道她的混合策略向量。这就质疑到目前为止对确定性动力学的分析是否提供了可靠的结论。在本节中,我们提供了一些模拟,证明它确实如此。当确定性动力学接近策略空间的边界时,我们预计相应的随机动力学行为类似,偶尔会发生一些波动。这是因为在战略空间的边界上采取不同行动的可能性非常小。相反,如果在战略空间的中心有一个唯一的稳定固定点,我们预计波动将是实质性的,因为任何行动都可以以相同的概率粗略选择。在图7中,我们报告了证实这一直觉的示例。在面板(a)和(c)中,没有稳定的固定点,确定性动力学遵循混沌吸引子,玩家在参数空间边界(面板(c))玩混合策略。相应的随机动力学非常相似(事实上,我们在补充附录2.4中表明,随机动力学也是混沌的)。面板(b)和(d)中的情况非常不同。

44
kedemingshi 在职认证  发表于 2022-5-31 03:08:52
在这里,确定性动力学收敛到战略空间(d)中心的一个固定点,而随机版本基本上围绕该点进行。8结论在本文中,我们遵循了文献中的假设,假设有界理性的玩家参与一个完全重复的游戏,并使用适应性学习规则更新他们的阶段游戏策略,这里是经验加权吸引(EWA)。我们已经对噪声对学习动力学的影响进行了系统研究,这超出了本文的范围。Werefer the reader to Galla(2009)for a study on the effect of noise on learning,and to Crutch field et al.(1982)for a more general discussion on the effect of noise on dynamic systems。读者可以阅读Galla(2009)关于噪声对学习影响的研究,以及Crutch field et al.(1982)关于噪声对动力系统影响的一般性讨论。0.00.20.40.60.81.0(a)(b)900 920 940 960 980 10000.00.20.40.60.81.0(c)900 920 940 960 980 1000(d)tx,yFigure 7:循环游戏中学习动态的概率x(蓝色)和y(红色)的时间序列。顶部面板表示随机学习,底部面板表示相应的确定性学习。在所有情况下,支付组合为A=-C=-3.4和B=-D=-2.5,记忆损失为α=0.2。在图(c)中,确定性动力学收敛到混沌吸引子(β=1),而在图(d)中,确定性动力学达到固定点(β=0.1)。该学习过程在2×2博弈中的渐近结果,分类为何时会收敛到纳什均衡(NE),何时会收敛到不同的固定点,或何时会遵循混沌的极限环。文献中的大多数工作都关注一个或两个学习规则的收敛性。

45
mingdashike22 在职认证  发表于 2022-5-31 03:08:56
由于EWA概括了文献中广泛研究的几种学习规则——强化学习、各种形式的游戏、最佳反应动力学以及具有有限记忆的复制器动力学——我们的贡献是提供学习动力学的系统表征或分类,扩展了仅对EWA的极端参数化有效的结果,显示了新的现象。这些因素包括帕累托效率的不稳定性、相互合作固定点的稳定性以及记忆对稳定性的模糊影响。我们的分类法也有助于为实验中预期的学习动态提供理论指导,因为EWA被广泛用于模拟几类游戏中的学习行为。9参考书目Benaim,m.和Hirsch,m.W.(1999),“扰动游戏中因游戏而产生的混合平衡和动力系统”,游戏与经济行为,第29卷,第36-72页。Benaim,m.、Hofbauer,J.和Hopkins,E.(2009)“在不稳定均衡的博弈中学习”,《经济理论杂志》,第144卷,第1694-1709页。Bloom field,R.(1994)“在实验室学习混合战略均衡”,《经济行为与组织杂志》,第25卷,第411-436页。B¨orgers,T.和Sarin,R.(1997)“通过强化和复制动力学学习”,《经济理论杂志》,第77卷,第1-14页。Brown,G.W.(1951年),“通过游戏的迭代求解”,T.Koopmans ed.生产和分配的活动分析,纽约:Wiley,第374-376页。Bush,R.R.和Mosteller,F.(1955)学习的随机模型:John Wiley&Sons,股份有限公司Camerer,C.和Ho,T.(1999)“正常形式游戏中的经验加权吸引学习”,《计量经济学:计量经济学学会杂志》,第67卷,第827-874页。Cheung,Y.-W.和Friedman,D。

46
nandehutu2022 在职认证  发表于 2022-5-31 03:08:59
(1997)“正常形式游戏中的个人学习:一些实验室结果”,《游戏与经济行为》,第19卷,第46-76页。Conlisk,J.(1993)《游戏中的适应:克劳福德难题的两种解决方案》,《经济行为与组织杂志》,第22卷,第25-50页。Crawford,V.P.(1974)“在零和博弈中学习最优策略”,《计量经济学:计量经济学学会杂志》,第885-891页。Crutch fi field,J.P.、Farmer,J.D.和Huberman,B.A.(1982),“波动和简单混沌动力学”,《物理报告》,第92卷,第45-82页。Erev,I.和Roth,A.E.(1998)“预测人们如何玩游戏:在具有独特混合策略均衡的实验游戏中强化学习”,《美国经济评论》,第88卷,第848-881页。Fudenberg,D.和Kreps,D.M.(1993)“学习混合均衡”,《博弈与经济行为》,第5卷,第320-367页。Fudenberg,D.和Levine,D.K.(1998)《游戏学习理论》,第2卷:麻省理工学院出版社。Galla,T.(2009)“游戏动态学习中的内在噪音”,《物理评论快报》,第103卷,第198702页。(2011)“不完美学习中的合作与缺陷周期”,《统计力学杂志:理论与实验》,2011年第卷,第P08007页。Galla,T.和Farmer,J.D.(2013)“学习复杂游戏中的复杂动力学”,《国家科学院学报》,第110卷,第1232-1236页。Ho,T.H.、Camerer,C.F.和Chong,J.-K.(2007)“游戏中的自我调整经验加权吸引力学习”,《经济理论杂志》,第133卷,第177-198页。Hofbauer,J.和Sigmund,K.(1998)《进化游戏和种群动力学》:剑桥大学出版社。Hopkins,E.(2002)“人们如何在游戏中学习的两个相互竞争的模型”,《计量经济学:计量经济学学会杂志》,第70卷,第2141-2166页。梅西,M.W。

47
何人来此 在职认证  发表于 2022-5-31 03:09:02
(1991)“学会合作:社会交流中的随机和默契共谋”,《美国社会学杂志》,第97卷,第808-843页。梅西,M.W.和弗莱奇,A.(2002)“社会困境中的学习动力”,《国家科学院学报》,第99卷,第7229-7236页。McKelvey,R.D.和Palfrey,T.R.(1995)“正常形式游戏的量子反应平衡”,《游戏与经济行为》,第10卷,第6-38页。Miyazawa,K.(1961)“关于2×2非零和二人博弈中学习过程的趋同”,技术报告研究备忘录第33号,普林斯顿大学计量经济学研究项目。Monderer,D.和Sela,A.(1996)“没有虚拟游戏财产的2×2游戏”,《游戏与经济行为》,第14卷,第144-148页。Mookherjee,D.和Sopher,B.(1994)“实验性配对便士游戏中的学习行为”,《游戏与经济行为》,第7卷,第62-91页。Osborne,M.J.和Rubinstein,A.(1994)博弈论课程:麻省理工学院出版社。Ott,E.(2002)《动力系统中的混沌:剑桥大学出版社》。Rapoport,A.和Guyer,M.(1966)“2 x 2游戏的分类”,通用系统,第11卷,第203-214页。Robinson,J.(1951)“解决游戏的迭代方法”,《数学年鉴》,第296-301页。Sandholm,W.H.(2010)《人口游戏与进化动力学:麻省理工学院出版社》。Sato,Y.和Crutch field,J.P.(2003),“多智能体系统学习动力学的耦合复制因子方程”,Physical Review E,第67卷,第015206页。Stahl,D.O.(1988)“关于混合策略纳什均衡的不稳定性”,《经济行为与组织杂志》,第9卷,第59-69页。Young,H.P.(1993)“公约的演变”,《计量经济学:计量经济学学会杂志》,第61卷,pp。

48
可人4 在职认证  发表于 2022-5-31 03:09:05
57–84。命题2的证明为了研究纯策略NE的性质,我们需要考虑原始坐标中的学习动力学(纯策略映射到变换坐标中的有限元素)。EWA动态读数(使用δ=1、κ=1的(6)和Payo ff矩阵(1)):x(t+1)=x(t)1-αeβ(ay(t)+b(1-y(t))x(t)1-αeβ(ay(t)+b(1-y(t))+(1-x(t))1-αeβ(cy(t)+d(1-y(t)),y(t+1)=y(t)1-αeβ(ex(t)+f(1-x(t))y(t)1-αeβ(ex(t)+f(1-x(t))+(1-y(t))1-αeβ(gx(t)+h(1-x(t))。(22)从等式(22)可以看出,纯策略(x,y)∈ {(0,0),(0,1),(1,0),(1,1)}是动力学的所有固定点。让我们研究它们的稳定性。我们得到了JacobianJ=JJJJ, (23)带j=(1- α) (十)- x) αeβ(y(a-b-c+d)+b-d)x(1- x) αeβ(y(a-b-c+d)+b-d)- (十)-1) xα,J=β(x- x) α+1(a- b-c+d)eβ(y(a-b-c+d)+b-d)x(1- x) αeβ(y(a-b-c+d)+b-d)- (十)- 1) xα,J=β(y- y) α+1(e- f- g+h)eβ(x(e-f-g+h)+f-h)y(1-y) αeβ(x(e-f-g+h)+f-h)- (y)- 1) yα,J=(1- α) (y)- y) αeβ(x(e-f-g+h)+f-h)y(1-y) αeβ(x(e-f-g+h)+f-h)- (y)- 1) yα.(24)通过采用等式中的适当限值可以看出。(24)对于纯策略的所有文件,雅可比矩阵沿主对角线有有限元素,沿反对角线有空元素。这意味着纯战略的利益,尤其是纯战略的利益,“完全”不稳定。然而,当α=0时,纯策略NE变得稳定。考虑purestrategies的优点,其中两个参与者都选择动作s。这对应于x=y=1,并且givesa JacobianJ=e-β(a-c) 0 e-β(e-g). (25)特征值可以在主对角线上看到,并且当a>c和e>g时,特征值是稳定的。在这些条件下(sR,sC)是纯策略NE。所有其他纯战略文件的论点都类似。B提案3的证明我们首先考虑索赔(i)。由于B=0,因此始终存在一个固定点(~x?,~y?)=(0,0)。

49
大多数88 在职认证  发表于 2022-5-31 03:09:08
如果(根据公式(13))βα| A |,则该固定点是稳定的≤ 1.(26)所以,只要▄x?=0是唯一的固定点,它是稳定的。然后,我们考虑权利要求(ii),尤其是下界βα| A |→ 1+。除中央固定点外,还有两个横向固定点x?=±, 哪里 是一个任意球数。由于游戏的对称性,我们将重点放在由(▄x?,▄x?)提供的混合策略上。(类似的参数适用于类型(~x?)的固定点?,-x?)Tos二阶,coshx?≈ 1+(¢x?)/2、稳定性条件变为αβ1+(~x?)!1+(°x?)!- |A |≥ 0,(27)即(¢x?)≥βα| A |- 现在,我们泰勒展开ψ(¢x?)(在第6.1.2节中定义)到三阶(一阶只会产生▄x?=0)),并求解▄x?=ψ(¢x?)。除了空解之外,我们得到了(≈x?)=βAα- 1.βAα1+βAα. (29)很容易检查βα| A |→ 1+,条件(28)满足:组成部分为“横向溶液”的固定点稳定。因此,在βα| a |=1时存在超临界干草叉分叉。上界,即βα| A |→ ∞, 很容易处理。如第6.1.2节所述,在该限值中,固定点x?由x给出?≈ ±βα| A |。现在,对于βα| A |→ +∞ 双曲余弦可以用cosh近似βα| A|≈ 经验值βα| A|/2.(30)我们可以将稳定性条件改写为:4βα| A | exp-2βα| A|≤ 1.(31)对于βα| A |→ ∞, 上述方程的左边为零,因此不等式显然成立。最后,(iii)的证明与βα| A |上界的证明相同,因为相同的参数适用于βα| B |的足够大的值(前提是B A) 。C钢筋学习的固定点通过设置x(t+1)=x(t)=x获得固定点?y(t+1)=y(t)=y?式(6)中,α=0,κ=1。

50
kedemingshi 在职认证  发表于 2022-5-31 03:09:12
这是givesx=x?eβ[δ+(1-δ) x?](ay?+b(1-是吗?)x?eβ[δ+(1-δ) x?](ay?+b(1-是吗?)+(1)-x?)eβ[δ+(1-δ) (1)-x?)](cy?+d(1-是吗?),是吗=yeβ[δ+(1-δ) 是?](ex?+f(1-x?))yeβ[δ+(1-δ) 是?](ex?+f(1-x?)+(1)-是吗?)eβ[δ+(1-δ) (1)-y?)](gx?+h(1-x?)。(32)很容易检查所有纯战略文件是否为固定点。可以找到四个额外的解决方案,注意到当x?还是y?为0或1,则相应的等式作为一个恒等式。然后可以通过求解other方程找到另一个解。这些给定点(0,y)=0,(1- δ) h+δ(h- f) (1)- δ) (f+h),(1,y)=1,(1- δ) g+δ(g- e) (1)- δ) (g+e),(x,0)=(1)- δ) d+δ(d- b) (1)- δ) (d+b),0,(x,1)=(1)- δ) c+δ(c- a) (1)- δ) (c+a),1.(33)当然,这些解的存在必须是0<y,y,x,x<1。当等式(32)中指数的参数相同时,即当(δ+(1)时,得到两个最终解(x,y)和(x,y- δ) x?)(ay?+b(1-y?)=(δ+(1- δ) (1)-x?))(cy?+d(1-是吗?),(δ+(1- δ) 是吗?)(ex?+f(1- x?)=(δ+(1- δ) (1)-是吗?)(gx?+h(1-x?)。(34)这些解的表达式非常复杂且不明显。我们只报告δ=0和对称对策x?=是吗=b- c+2d±√b- 2bc+c+4ad2(b- a+d-c) 。(35)我们不报告除纯策略文件(公式(21))以外的其他固定点的特征值,因为它们的表达复杂且不明显。补充附录1具有有限记忆的复制器动力学我们证明,EWA方程(6)有一个连续的时间限制,对应于具有有限记忆的复制器动力学的通用版本,而不是标准情况下的有限记忆。我们提出了一个与先前论文相关的替代推导。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-25 07:42