楼主: 何人来此
1707 57

[量化金融] 2 x 2游戏中学习动力的分类 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
64.8012
学术水平
1 点
热心指数
6 点
信用等级
0 点
经验
24593 点
帖子
4128
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
何人来此 在职认证  发表于 2022-5-31 03:06:36 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Towards a taxonomy of learning dynamics in 2 x 2 games》
---
作者:
Marco Pangallo, James Sanders, Tobias Galla and Doyne Farmer
---
最新提交年份:
2021
---
英文摘要:
  Do boundedly rational players learn to choose equilibrium strategies as they play a game repeatedly? A large literature in behavioral game theory has proposed and experimentally tested various learning algorithms, but a comparative analysis of their equilibrium convergence properties is lacking. In this paper we analyze Experience-Weighted Attraction (EWA), which generalizes fictitious play, best-response dynamics, reinforcement learning and also replicator dynamics. Studying $2\\times 2$ games for tractability, we recover some well-known results in the limiting cases in which EWA reduces to the learning rules that it generalizes, but also obtain new results for other parameterizations. For example, we show that in coordination games EWA may only converge to the Pareto-efficient equilibrium, never reaching the Pareto-inefficient one; that in Prisoner Dilemma games it may converge to fixed points of mutual cooperation; and that limit cycles or chaotic dynamics may be more likely with longer or shorter memory of previous play.
---
中文摘要:
无限理性的玩家是否在反复玩游戏时学会了选择均衡策略?行为博弈论中的大量文献提出并实验测试了各种学习算法,但缺乏对其均衡收敛特性的比较分析。在本文中,我们分析了经验加权吸引(EWA),它概括了虚拟游戏、最佳反应动力学、强化学习以及复制子动力学。通过研究$2×2$博弈的可处理性,我们在极限情况下恢复了一些众所周知的结果,其中EWA简化为它推广的学习规则,但也获得了其他参数化的新结果。例如,我们证明了在协调博弈中,EWA可能只会收敛到帕累托有效均衡,而不会达到帕累托无效均衡;在囚徒困境博弈中,它可能会收敛到相互合作的固定点;而极限环或混沌动力学可能更可能与之前播放的较长或较短的记忆有关。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--
一级分类:Physics        物理学
二级分类:Chaotic Dynamics        混沌动力学
分类描述:Dynamical systems, chaos, quantum chaos, topological dynamics, cycle expansions, turbulence, propagation
动力系统,混沌,量子混沌,拓扑动力学,循环展开,湍流,传播
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Experimental Coordination Quantitative equilibrium Convergence

沙发
能者818 在职认证  发表于 2022-5-31 03:06:42
2×2游戏中学习动力的分类?Marco Pangallo、James B.T.Sanders、Tobias Galla和J.Doyne Farmer3,4,5圣安娜高等研究院经济与系嵌入研究所,Pisa 56127,曼彻斯特大学物理与天文学院意大利理论物理学院,曼彻斯特M13 9PL,牛津大学牛津分校牛津马丁学院英国新经济思想研究所,牛津牛津牛津大学OX2 6ED,英国数学研究所,牛津大学,牛津OX1 3LP,英国圣达菲研究所,圣达菲,新墨西哥州87501,美国2021年9月3日摘要有边界的理性玩家在反复玩游戏时会学习选择均衡策略吗?行为博弈论中的大量文献提出并实验测试了各种学习算法,但缺乏对其均衡收敛特性的比较分析。在这篇文章中,我们分析了经验加权吸引(EWA),它概括了行动游戏、最佳反应动力学、强化学习和同样的复制因子动力学。通过研究2×2对策的可处理性,我们在极限情况下恢复了一些众所周知的结果,其中EWA简化为它推广的学习规则,但也获得了其他参数化的新结果。例如,我们表明,在协调博弈中,EWA可能只会收敛到帕累托均衡,而不会达到帕累托均衡;在囚徒困境博弈中,它可能会收敛到相互合作的固定点;而极限环或混沌动力学可能更可能与之前游戏的较长或较短记忆有关。关键词:行为博弈论、EWA学习、收敛、均衡、混沌。果冻等级:C62、C73、D83。*通讯作者:marcopangallo@gmail.com.

藤椅
大多数88 在职认证  发表于 2022-5-31 03:06:46
对于有帮助的意见和建议,我们感谢广告编辑和两位匿名评论员,以及文斯·克劳福德(Vince Crawford)、Cars Hommes(Cars Hommes)、山姆·豪森(Sam Howison)、裴兰娇(PeiranJiao)、罗宾·尼科尔(Robin Nicole)、卡尔·施拉格(Karl Schlag)、米哈拉·范德沙尔(Mihaela Van der Schaar)、亚历克斯·泰特尔博伊姆(Alex Teytelboym)、佩顿·杨(Peyton Young)以及2017年欧洲经济区年会、纽菲尔德学院(Nu ffeld College)、2016年伊内特·伊西(INET YSI)全体会议、赫伯特·西蒙社会国际研讨会的研讨会参与者,2016年复杂系统会议和国王学院。马可·潘加洛(Marco Pangallo)在牛津大学新经济思维与数学研究所(Institute for New Economic Thinking and Mathematic Institute)任职期间完成了本文中的研究。他感谢INET和EPSRC奖项1657725.1的财政支持。在本文中,我们研究了参与完全重复游戏的有界理性玩家。在这个游戏中,玩家在每一轮后使用adaptivelearning规则更新他们的舞台游戏策略。我们确定玩家何时收敛到纳什均衡(NE),何时收敛到非NE的平稳状态,或者何时学习动力学从不收敛到任何固定点,渐近遵循极限环或混沌吸引子。更具体地说,我们分析了经验加权吸引(EWA)的学习动态(Camerer和Ho,1999)。EWA之所以具有吸引力,有几个原因。从实验的角度来看,EWA已被证明在几类游戏中相对较好地描述了真实玩家的行为,并且在实验中仍被广泛用于建模行为。因此,我们的分析为实验中可以预期的学习动态提供了理论指导。从理论角度来看,EWA很有吸引力,因为它概括了四条著名的学习规则。

板凳
kedemingshi 在职认证  发表于 2022-5-31 03:06:49
事实上,对于其参数的某些限制值,它会降低到最佳反应动力学、各种形式的游戏(Fudenbergand Levine,1998)、强化学习以及具有有限记忆的广义双种群复制动力学(Sato和Crutch field,2003)。了解EWA下的学习行为,可以通过在各自的参数化之间进行插值来概括这四种更简单的学习算法的结果。这产生了在极限情况下可能无法观察到的新现象。我们将分析重点放在两人游戏上,在两人游戏中,相同的两名玩家在每一步重复匹配,以玩相同的阶段游戏,每个玩家有两个动作可用。这些被称为2×2游戏。我们之所以选择2×2博弈,是因为它们包含了博弈理论家通常研究的许多战略紧张关系,而且它们也很简单,可以在一些EWA参数化下对学习行为进行全面的分析表征。虽然我们无法为所有游戏和学习参数的组合提供封闭形式的解决方案,但我们提供解决方案的参数化涵盖了之前研究的大多数案例以及它们之间的转换。因此,我们的方向是为一系列学习规则和任何支付矩阵提供2×2场学习动态的“分类法”。在EWA简化为其概括的学习规则的极限参数化中,我们恢复了众所周知的结果。例如,我们的分析表明,在2×2博弈中,fictiiousplay总是收敛到一个NE(宫泽,1961)。特别是,在匹配硬币的游戏中,策略空间的中心位置会汇聚到混合策略NE,玩家可以在头尾之间以相同的概率随机选择。

报纸
大多数88 在职认证  发表于 2022-5-31 03:06:52
相反,在EWA减少为两个种群复制子动力学的极限情况下,它围绕匹配的便士平衡旋转,这也符合文献(Hoffauer和Sigmund,1998)。然而,根据实验数据估计的EWA参数很少与这些有限的参数化相对应,而是位于参数空间的内部(Camererand Ho,1999)。这一经验事实使我们有必要了解参数的一般值会发生什么。离开参数空间的“边界”也会产生一些新现象。例如,再次考虑到匹配的便士游戏、游戏和复制者动态学习规则,记忆在促进趋同到平衡中的作用并不是微不足道的。在实际游戏中,较长的记忆使趋同更可能达到平衡。事实上,虽然具有有限记忆的游戏的标准版本总是会收敛到匹配硬币的混合NE,但具有有限记忆的游戏版本却不会。相反,具有有限记忆的标准(两种群)复制子动力学并不收敛于混合NE,而我们表明,一个完整记忆泛化会收敛于混合NE。较长的记忆如何可能在实际应用中促进均衡收敛,而在复制子动力学中却有相反的效果?我们对EWA学习的分析解释了这种差异,并在参数空间中确定了一个精确的边界,在这个边界上,记忆对稳定性的影响是显著的。我们的研究表明,这取决于经验和吸引力这两个EWA关键组成部分的增长速度。当这两个数量以相同的速度增长时,就像在实际游戏中一样,玩家会对之前经历的支付和新支付进行加权平均,而更长的记忆意味着新支付的权重更小。因此,更长的记忆直观地促进了稳定性。

地板
kedemingshi 在职认证  发表于 2022-5-31 03:06:55
相反,当体验增长不到或增长速度慢于景点时,较长的记忆并不意味着新的支付权重较低。在这种情况下,较短的记忆有助于趋同,因为快速忘记过去的付出会使玩家更有可能在他们的动作之间随机化,而没有任何玩家被强烈吸引到前倾或尾部。另一个具体例子表明,在理解2×2协调博弈中帕累托均衡的收敛性时,超越EWAis的极限情况是有用的。这样的游戏有两个纯NE可以进行帕累托排序。对于简单的学习规则,如游戏或复制动态,帕累托效率NE始终是局部稳定的。这意味着,如果参与者开始时充分接近这种平衡,他们将永远留在那里。我们的分析表明,对于EWA参数的某些值,和/或对于非常强的效率(即,帕累托最优NE明显优于其他NE),帕累托效率NE可能不再是局部稳定的。换句话说,玩家永远不会停留在那里,总是收敛到帕累托最优NE。最后一个例子涉及囚徒困境游戏。(与本文研究的其他游戏相比,在这些游戏中,我们对舞台游戏策略的限制可能不太现实。事实上,与历史相关的策略,如针锋相对的策略,已经多次被证明具有实验相关性。)在最佳反应动力学、主动游戏和复制动力学下,双方合作的动作角色永远不会是局部稳定的。这是因为,在这三条规则下,玩家总是会考虑放弃支付。如果他们开始操作,当考虑放弃支付时,他们意识到,通过单方面切换到缺陷,他们可能会获得更高的支付。然而,在强化学习下,合作固定点可以是局部稳定的。

7
能者818 在职认证  发表于 2022-5-31 03:06:58
梅西(Macy)和弗莱奇(Flache)(2002)以随机共谋的名义证明了这一点:因为在强化学习中,玩家不考虑放弃支付,他们没有意识到切换到缺陷会产生更好的支付,而合作可能是一个稳定的结果。有用的是,其中一个EWA参数插在两个极端之间,在这两个极端情况下,参与者完全考虑或忽略放弃的支付。这使得有可能精确地确定相互合作不再是稳定结果的点,这取决于此参数和支付。从实际角度来看,我们的挑战是确定13维参数空间的特征,由八个完全决定2×2游戏的支付、四个EWA参数和学习规则的选择组成,学习规则可以是确定性的,也可以是随机的(见下文)。我们的参数空间探索计划是模块化的:我们首先考虑具有最少数量自由参数的基线场景,然后研究涉及改变基线场景中固定参数的各种范围。由于EWA的强非线性,我们无法为每个参数组合提供一个通用的闭式解。然而,我们提供了一个例子,在这个例子中,我们可以根据我们研究的场景定性地理解我们没有明确探索的部分参数空间中的学习行为。我们开始介绍符号并定义第2节中2×2游戏的相关类。然后,我们在第3节中定义了EWA学习规则。之后,在第4节中,我们对主要结果进行了定性概述,将其放在上下文中。该结果与基于随机稳定性的预期结果相似(Young,1993),但在完全不同的框架中获得。请注意,EWA可能会对依赖历史的策略进行建模。

8
何人来此 在职认证  发表于 2022-5-31 03:07:01
例如,Galla(2011)考虑了囚徒困境和三种依赖历史的策略,总是合作(AllC)、总是缺陷(AllD)和以牙还牙(TFT)。这些依赖历史的策略产生的阶段性博弈和相互对抗的回报定义了一个可以运行EWA的博弈。我们将此类案例的研究留给未来的工作。此外,我们注意到,如果从人口动力学的角度来解释EWA,那么阶段性游戏策略在囚犯困境中可能更为现实:每一步,一个群体中的某个玩家都会与另一个群体中的某个随机游戏者进行一次一次性游戏。在这种情况下,依赖历史的策略(如TFT)很难实现,因为玩家不知道他们将与谁对抗。严格地说,学习规则的随机性不是一个参数,而是我们情景分析的一个维度。文学这一概述比导言中给出的更为详细,其目的是在引入相关符号后,提供对结果的更深入理解,而无需深入研究数学分析的技术细节。然后讨论一些有助于分析的简化,并在第5节中制定参数空间探索计划。接下来,我们分析第6节中的基线场景,并考虑第7节中基线场景中未包含的参数空间维度。第8节结束。大多数数学证明都在附录中,其他结果可以在补充附录中找到。2类2×2博弈尽管非常简单,但2×2博弈包含了博弈论者研究的许多战略紧张关系。

9
kedemingshi 在职认证  发表于 2022-5-31 03:07:04
在下文中,我们将2×2游戏分为一些类别,这些类别对应于一些战略紧张局势,有助于理解学习动态的结果。我们考虑两个玩家,两个动作游戏。我们通过u对这两个参与者进行索引∈ {Row=R,Column=C}并为playeru的两个动作写入sui,i=1,2。像往常一样,我们写-u代表玩家u的对手。当两个玩家选择动作su和s时-ujplayeru接收payoff∏u(sui,s-uj)和她的对手收到payoff∏-u(sui,s-uj)。这可以编码在Payoff s∏、sCsCsRa、eb、gsRc、fd、h(1)的2×2双矩阵中,其中位置元素(sRi,sCj)表示Payoff s∏R(sRi,sCj),C(sRi,sCj)。例如,如果两个玩家玩动作sr和sC,则支付的是b到玩家行和gto玩家列。在学习过程中,两名玩家可以使用混合策略,即玩家R使用概率x玩动作Sr,使用概率1玩动作Sr-x、 类似地,玩家列使用概率y和概率1来播放sCwith probability y和sCwith probability 1- y、 player R的(时间相关)策略编码在变量x(t)中,player列的策略编码在变量y(t)中。这些变量中的每一个都被限制在0到1之间的间隔内。根据人们想看的游戏的属性,可以构建2×2游戏的几种分类。也许最著名的分类是由Rapoport和Guyer(1966)提出的,他们构建了所有不同的游戏,可以通过以所有可能的方式排序两个玩家的支付来获得。我们下面的分析表明,对于许多参数的选择,我们不需要对支付矩阵进行如此细粒度的分类来将直觉构建到EWA学习动态的结果中。当支持方的行为保持不变时,考虑对一方支付的成对顺序就足够了。

10
nandehutu2022 在职认证  发表于 2022-5-31 03:07:07
例如,当列的动作固定为sC时,玩家R的a和c之间的比较,以及当列的动作固定为sC时,b和d之间的比较。原则上有2=16个这样的成对排序。出于我们的目的,我们可以将这些排序分为4个类,如表1所示。这些类别还通过纳什均衡的数量、类型和位置来区分。协调和反协调游戏。这些对应于顺序a>c,b<d,e>g,f<h(协调博弈)和a<c,b>d,e<g,f>h(反协调博弈)。协调游戏有两个纯策略NE,一个是at(sR,sC),我们的分类相对标准,例如,它非常接近Hofbauerand Sigmund(1998)第10章中的分类。反协调和协调游戏可以看作是等效的,因为每种类型的游戏都可以通过重新标记一个玩家的一个动作从另一个玩家那里获得(例如,将sr重命名为sr,反之亦然)。然而,博弈支付的纳什均衡类例如协调A>c,b<d,e>g,f<h。两种纯策略(sR,sC),(sR,sC)和一种混合策略NE。0.0 0.5 1.0x0.00.51.0y∏=5、5、1、11、1、4、4反协调a<c,b>d,e<g,f>h。两种纯策略(sR,sC),(sR,sC)和一种混合策略NE。0.0 0.5 1.0x0.00.51.0y∏=1、1、5、44、5、1、1周期>c,e<g,b<d,f>h;a<c,e>g,b>d,f<h。独特的混合策略。0.0 0.5 1.0x0.00.51.0y∏=5.-5 1、11、14、,-4.支配性LVABLEA>c、e>g、b>d、f>h和所有其他11种排序。独特的纯策略NE。0.0 0.5 1.0x0.00.51.0y∏=1、1、3、00、3、2、2表1:双人、双人动作游戏的相关类别。博弈的类别是根据支付的成对排序或等价地根据纳什均衡的数量、类型和位置来确定的。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-24 16:28