楼主: 何人来此
1705 23

[经济学] 网络上的非对称博弈:走向伊辛模型表示 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-4-16 11:34:36
然后,我们检验了哪些初始关联同时是博弈双方的解,表明对于这些初始关联,所选择的响应策略是相关博弈的纳什均衡。在均衡的策略中,wecompare是游戏者的预期支付。均衡策略从81个可能的反应策略解决方案中,考虑到2个参与者,每个参与者的2个反应概率和3种不同反应概率的解决方案,我们使用对称性论据将我们的研究限制在23个导致相关Nashequilibria的策略(见app.B)。假设一个玩家1在BoS游戏中喜欢玩C,另一个玩家2在BoS游戏中喜欢玩D,另外两个相同的玩家在PC游戏中喜欢玩C,我们在图中给出了示意图。3a反应策略所在的区域是这些博弈的平衡点,行列式D=PCCPDD-PDCPCD的符号与相关性的符号有关。正相关对于协调游戏,如BoS和PC是有利的,因为当玩家采用相同的策略时,他们的Payo值最高。因此,负相关从参与者中选择相反的反应,以保证重整相关再次为正。在表II中,每个区域的均衡保持不变。3A有进一步的规定。我们将均衡分为三类:第一类代表在所有区域都是均衡的策略;第2类表示仅由纯策略组成的剩余策略;类3区分了包含纯策略和混合策略的策略。Payo分析当我们确定了在代表初始相关设备的每个区域中哪些响应策略是均衡后,我们计算出哪些响应策略给出了最高的Payo值,因为参与者希望在一个稳定的条件下获得最高的结果。对于PCgame的玩家来说,理性的选择是忽略相关性,根据自己的偏好进行协调。相反,BoS游戏中的玩家会从相关关系中获益,因为他们希望尽可能地阻止单独执行一项行动,无论是他们的偏好还是对手的偏好。考虑到博弈方是对称的,在存在多个均衡解的区域内,当不同的博弈方采用不同的均衡时,会出现最优的结果。考虑1类均衡,我们发现纯C均衡(1,0,1,0)对玩家1是最好的,而纯Dequilibrium(0,1,0,1)对玩家2是最好的,其中最不利玩家的Payo等于S。混合策略均衡不是由对称概率参数化的,因为pcd=(1/(s+1))和pdc=(s/(s+1)),但如果参与者选择忽略相关性,混合策略均衡总是可以实现的。当2类反应策略在与3类反应策略相同的区域内为平衡时,前者总是呈现出较高的Payo值。这是BoS游戏的区域A、B、C和L,图中突出显示的区域。3b.在此规则的区域1中,有两个退化均衡,对两个参与者都是同样有利可图的。尽管适用于该区域的重整化方案并不保持初始概率的对称性,但这种情况还是发生了。作为一个例子,考虑对称初始化相关设备pcc=1/5、pcd=pdc=2/5和pdd=0。应用响应策略(1,1,0,0)将相关器件重新正规化为PRCC=PRDD=2/5,PCD=1/5和PDC=0,而响应策略(0,0,1,1)将转换初始相关器件TOPRCC=PRDD=2/5,PCD=0和PDC=1/5。

12
nandehutu2022 在职认证  发表于 2022-4-16 11:34:42
然而,尽管存在重正相关关系,但当博弈双方协调时,BoS博弈的Payo值只有非零。在区域2和区域3中,这两种策略中只有一种是均衡的,因此玩家同意采用的策略,引入相关性的好处是明确的。在区域4和区域5中,由于策略(1,1,1,1)和策略(0,0,0,0)使对角线概率值反向,所以虽然两者都是均衡,但存在着等价于达到一个没有关联的纯解的不可判定性。将Ising建模到相关的游戏中,我们使用两个玩家的斜率分析来翻译结果,并将其描述为Ising参数的函数。Bothinitial和renormalized概率分别对应于Ising Hamiltonians和HR。反演式(1)中的表达式,我们得到了作为初始概率ASB=log pccpcdpddpdc,B=log pccpdcpddpcd,J=log pccpddpdc的函数的参数。(22)重整化概率与参数BR相似地映射,布兰德JR.PF C,PF D,PF C,PF D-A B C D E F G H I J K L类(1,0,1,××ut(1,1,0,0)×utut(0,0,1,1)×utut(1,P1;f D,1,P2;f D)××××3(P1;f C,0,P2;f C,1)××ut××ut(0,P1;f D,0,P2;f D)ut×××ut(1,P1;f D,P2;f C,1)ut(0,P1;f D,P2;f C,0)(P1;f C,1,1,P2;f D)(P1;f C,1,1,P2;f D)(P1;f C,1,P2;f D)(P1;f C,1,P2;f D)(1,P1*f D,0,P2*f D)?×?(P1*f C,0,P2*f C,1)?×?(0,P1*f D,1,P2*f D)×?(P1*f C,1,P2*f C,0)×?(P1*f C,0,1,P2*f D)×?(P1*f C,1,1,P2*f D)×?(P1*f C,1,0,P2*f D)×?(P1*f C,1,0,P2*f D)×?(P1?f C,1,0,P2?f D)×?(P1?f C,1,0,P2?f D)×?×ut×(1,P1;F D,P2;F C,0)×ut×(0,P1;F D,P2;F C,1)×ut×?××××表II:图的区域。3a中,给定的响应策略是具有C偏好的PC博弈(×)和BoS博弈(^)的均衡。从等式(22)中,我们看到在BoS博弈的对称部分中,如图所示。3.磁链之间的关系是b=b。这意味着,从所有不相关的策略中,只有纯策略将在本节中表示,因为BoS的混合纳什均衡是用参数J=0,b=-ln(s)/2和b=-b得到的。相互作用强度的最大值反映了每个玩家的独立性,而磁性强度的反对称值反映了他们各自的偏好。这些是随着磁场强度的模变大而获得的,在玩C(PCC=1)的情况下,正号产生结果,在玩D(PDD=1)的情况下,负号产生结果。在我们执行斜率分析后,我们感兴趣地理解伊辛参数如何随着它们的初始值的变化而变化,这些初始值描述了初始概率,以及在几个区域中每个游戏可用的重整化策略。在此基础上,我们绘制了BR、BRand JRINFIGS的参数图。4和5分别用于BoS和PC博弈。这在图形上刻画了由每个区域均衡的第2类策略所给出的重整化相关,作为对称初始相关的函数。如上所述,响应策略(1,1,0,0)和(0,0,1,1)提示一组非对称重整化概率,在这些策略为均衡的区域中分配给每个参与者的直接磁图中重新表现出来。值得注意的是,在整个平面上JRis总是正的,这表明了在所有平衡中铁磁取向的优先性,正如本文研究的配位对策所希望的那样。(a)(b)(c)(d)(e)图。4:在s=1/2时,利用BoS对策的2类均衡作为对称初始相关函数的重整化Ising参数。

13
kedemingshi 在职认证  发表于 2022-4-16 11:34:49
a)和b):对a)玩家1和b)玩家2使用(1,1,1,1)和(1,1,0,0)平衡策略的重整化磁系。c)和d):对c)玩家1和d)玩家2使用(0,0,0,0)和(0,0,1,1)平衡策略的重整化磁网。e):重整化相互作用强度。三人博弈的响应策略在本节中,我们分析了三个网络对应的纳什均衡,如图2所示。图6所示网络的子结构。1.在描述了上一节的相关性如何扩展到三个玩家之后,我们将它们映射到一个广义的伊辛模型,并对伊辛变量施加简化的假设,因为三人游戏的整个相空间太大,无法在这里进行全面详细的探索。我们探讨了这些初始变量在不同的正化方案下是如何变化的。最后,我们比较了每个网络的相关平衡区域作为Ising参数的函数。网络上的关联我们已经找到了描述两个游戏者平衡状态的哈密顿量,我们可能会试图将它们扩展到一个更大的网络中的每一个相互作用,推断它们是由同一个哈密顿量控制的。然而,网络中的所有节点都具有相同的偏好,节点与邻居之间的相互作用将产生新的全局均衡状态,这一点我们将看到。出于这个原因,我们将需要对伊辛模型进行推广,以解释龙朗奇的情况。我们从假设一组全球三玩法的存在开始。这些必须依赖于局部相关性的数量和类型,因此从建模更新的相关设备中涌现出来。局部相关可以通过全局相关的Ising参数来参数化。这对于了解任何两个玩家是如何关联的尤其有用,除了那些直接对手之外。这些关联并不有助于网络平衡的建立,因为这些玩家不会看着对方来计算他们的Payo值并更新他们的选择。相反,它们是其他玩家在局部进行博弈的副产品,但它们被全局相关性装置所涵盖。因此,伊辛模型在研究均衡时具有优势,因为它只在统计上描述了任何一组联合结果,但我们仍然需要相关性装置来计算纳什均衡(a)(b)(c)(d)(e)fig。5:在s=1/2时,用C偏好的PC对策的2类均衡重正化Ising参数作为对称初始相关的函数。a)和b):对a)玩家1和b)玩家2使用(1,1,1,1)和(1,1,0,0)平衡策略的重整化磁系。c)和d):对c)玩家1和d)玩家2使用(0,0,0,0)和(0,0,1,1)平衡策略的重整化磁网。e):重整化相互作用强度(a)D-C-D(b)-D-C-D(c)D-D-CFIG。6:对两个D偏好者和一个C偏好者的三人网络进行分析。使用斜率分析,因为它规定了玩家的可能结果。局部相关性:从一般的三人概率分布prμμμ=xμμμPμμμPμμμPμμμPμμμ,(23)开始,我们对其中一个参与者的结果求和,以找出其他两个参与者之间的相关性。例如,来自Q.(23)的玩家1和2的E-次方相关关系给出了byprμ,μ=xμprμμ=xμpμμpμμp。(24)类似地,我们分别通过对μ和μ求和得到玩家1和3的prμ、μ,以及玩家2和3的prμ、μ。我们注意到,figurrst重新正则化,然后追踪其中一个玩家的动作,这与顺序相反的过程是等价的。这样,我们就可以应用斜率分析来重整相关,如果存在链接,就使用两层相关作为相关装置。

14
大多数88 在职认证  发表于 2022-4-16 11:34:55
因此,我们利用方程(20)将斜率分析扩展到三人情况,假设玩家按照三人相关装置的指令遵循C或D进行响应,响应策略现在变成元组(PF C,PF D,PF C,PF D,PF C,PF D)。一个响应策略是一个平衡当且仅当所有六个相应的倾斜同时满足。这些条件假设一个参与者所拥有的不完全网络知识由其自身偏好和连接度组成。这就确保了每个网络结构都有各自的条件。广义Ising模型我们将三人相关概率映射到一个扩展Ising模型。在处理至少三个粒子的相互作用时,我们可以通过引入三体相互作用项a来扩展伊辛哈密顿,其结果是Hμμμ=-aμμ-Jμμ-Jμμ-Jμμ-Xibiμi。(25)用三体项A扩展我们的模型,使三人相关装置的七度偏差(八个可能偏差中的每一个的概率分布减去完备性关系)与七个参数之间有唯一的平移。在实践中,三体相互作用引入了所有参与者之间的真正关联,这些参与者之间既不是乘积可分的,也不是单独的,也不是成对的。根据节点之间是否存在两个或三个链接,每个节点有两个偏好,存在10个直接的三人网络。我们只研究其中一个玩家对其他两个玩家有不同偏好的网络上的均衡,如图1所示。6.此外,为了简单起见,我们利用网络结构来建立裸参数之间的关系。我们定义了具有特定偏好的玩家之间的交互J和具有特定偏好的玩家之间的交互J。此外,我们为喜欢C的玩家添加了一个磁性元素DB,为喜欢D的玩家添加了一个磁性元素B,为喜欢D的玩家添加了一个磁性元素BB。对于图中的网络。6a和6B,因此我们为图中的网络分配J=J=J,J=J,B=B=bandb=B。6c,J=J=J,J=J,b=b=b=b。使用这个参数化作为初始关联设备,网络D-C-D和-DC-d-之间的比较特别相关,因为它告诉我们它在多大程度上取决于玩家1和3之间是否有游戏。这些参与者的结果之间可能出现间接相关,这取决于他们与参与者2的直接相关,因此由比率J/J来描述。由于这些玩家的偏好,这个参数化进一步重新确定了在BoS和PC游戏之间存在联系的情况下,BoS和PC游戏之间的关系相互作用强度。我们仔细观察了两个关系偏好导致一个铁磁和一个反铁磁排列的情况(J/J=-1),所有相互作用都是铁磁或反铁磁的情况(J/J=1),以及两个玩家总是不相关的情况(J/J=0)。对三体相互作用也进行了类似的分析,其中特定值A=-1/2、A=0和A=1/2代表了该参数中信号变化的特征。我们还假定概率不对称,特别是假定b/b=-1,因为玩家的偏好与外部磁场的方向有关。我们把三人博弈分析的重点放在两人2类均衡的推广上,因为这些均衡是BoS博弈中对称初始相关的最佳解。这样,我们就可以在更广泛的初始概率范围内研究它们的行为。

15
可人4 在职认证  发表于 2022-4-16 11:35:02
对于网络D-C-D和-D-C-D-这些2类NashEquilibria将是(1,1,1,1,1,1)(相关平衡),(0,0,0,0,0),(1,1,0,0,1)和(0,0,1,1,1)。网络D-D-C共享两个平衡,但这两个被(1,1,1,1,0,0)和(0,0,0,0,0,1)取代。表III显示了图中每个网络在一定参数范围内的平衡解的2类响应策略列表。6.网络D-C-D是这些策略具有最大范围解决方案的一个,因为这个网络只由bosgames组成。重整化我们发现,由于应用2类响应策略,初始和重整化Ising参数之间存在对称性。这些关系的知识是有用的,因为我们只需要对其中一个响应策略应用斜率分析,并在它处于平衡状态时计算初始相关关系,其他三个响应策略紧随其后。作为一个例子,在图。7我们放大网络D-C-D的平衡区域,作为初始概率伊辛参数的函数,具体地,在J/J=-1和B/B=-1下。当我们从A到-A时,wesee(1,1、1、1、1、1)和(0,0,0,0,0,0)在关于J轴的不对称情况下,纳什均衡相互转换,在JJ-1 0 1a<0=0>0<0=0>0<0=0>0(1,1、1、1、1、1)===×××××××××××××××××××(0,0,0,0,0,0)==××××××××××××××××(1,1,0,0,1,1)××××××××××××××(0,0,1,1,0)×××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××这些网络是图中的D-C-D网络。图6a(t)中的-D-C-D--网络和图6b(x)中的D-D-C网络。6C,当s=1/2和b/b=-1时。后两种策略分别相当于D-D-C网络中的(1,1,1,1,0,0)和(0,0,0,0,1,1)。7:b-j平面中的区域,其中2类响应策略是在该ed-c-d网络上进行的博弈的均衡,对于s=1/2,J/J=-1,B/B=-1。橙色表示策略(1,1,1,1,1,1),灰色表示策略(0,0,0,0,0,0)。在紫色和蓝色中,这两种策略(1,1,0,0,1,1,1)和(0,0,1,1,0,0)是均衡的,这两种策略指示了玩家对Payo的不同偏好。JRJ0R/JRBRB0R/BRA(1,1,1,1,1,1,1,1,1,1,1,1,1,1)JJ/J B B/B A(0,0,0,0,0)JJ/J B B/B-A(1,1,0,0,1,0)-J-J/J B B/B-A(0,0,1,0,0)-J-J/J B B/B.这对于所有研究的网络都是正确的,除了网络D-D-C之外,其中最后两个参数重整化分别用策略(1,1,1,1,0,0)和(0,0,0,0,1,1)获得。策略(1,1,0,0,1)和(0,0,1,1,0)。从后一种策略到前一种策略中的一种,在这幅图中可以看到,因为它映射到b/b=1,但我们已经可以看到大部分均衡区域正在从J到-J之间进行。关于Payo,我们发现类似于图1中的区域。3b,其中有不止一个可能的平衡解。选择D的玩家在蓝色区域采用策略(1,1,0,0,1,1)和在棕色区域采用策略(0,0,1,1,0,0)的Payo值较高,而选择相反策略的玩家C的Payo值较高。在所有情况下,Payo值都高于混合策略方案。由于两个重整化方案之间存在对称性,我们将网络间的比较限制在相关平衡区域内。图中theD-C-D和-D-C-D-网络相关平衡区的比较。

16
大多数88 在职认证  发表于 2022-4-16 11:35:08
8a表示玩家1和3之间的直接或间接对抗,这里J/J=1RE的选择显示了对齐的激励。对于J和B较大时,我们观察到一个与参数a无关的两个网络共同的、完全由玩家2的平衡条件决定的收敛行为。为了看到这一点,考虑到球员2的payo函数的斜率,尊重按照指示玩C,向相关的dequilibrium。对于j=j,且b=-b,asJ>选项b-a+ln eb-a(S-1)+e3b+as,可以编写相应的条件cc>0 onnetworks-d-c-d和D-C-D。(26)在大B的限额内,这个条件可以通过ba来简化为渐近线,然后只保留B中的最大项,最终得到-1.5-1.0-0.50.51.01.52.0Br0.51.01.52.0JR-相关平衡D-C-D,a=-1/2D-C-D,a=0D-C-D,a=1/2-D-C-D,a=-1/2-D-C-D,a=-1/2-D-C-D,a=0J=B+ln(s)/4J=0,B=-ln(s)/2(a)-1.5-1.0-0.51.01.52.0Br0.51.01.52.0JR-相关平衡D-C-C,a=-1/2D-D-C,a=0D-D-C,a=1/2J=B+ln(s)/4J=0(s)/4j=-b-ln(s)/4(B)图。8:(a)中的网络D-C-D和-D-C-D-,以及(b)中的网络D-D-C的相关平衡区域,位于a<0的整条线、a=0的虚线和a>0的虚线之上,s=1/2,J=J和b=-b。在(a)中,区域被玩家2的平衡条件的极限行为所限定,在C(深灰色)和D(浅灰色)之后命名,在(b)中被玩家1(深灰色)和3(浅灰色)的平衡条件的极限行为所限定,在D.j>b+ln Eb(s-1)+e3bs≈b+ln(s)之后。(27)类似地,从cd>0可以得到J>-b-ln(s)/4附近的极限行为。这种渐近性态是D-D-C网络与前两个网络所共有的。与完全相关的网络一样,该网络的重整化相互作用强度总是正的,而对于较小的J和B值,则与外围结点的平衡条件有关,分别为cd>0和cd>0。稳定区域的极限是由游戏者1和3的平衡条件给出的,在这里平衡对线的依赖变得明显。闭网络的对称性更高,我们还可以在这些区域上找到标准的Nash等边(纯策略C,其中PCCCC=1;纯策略D,其中PDDD=1;和混合策略)。对于所有网络,我们在渐近线J=-b-ln(s)/4以上找到纯策略,对于所有网络,在J=B+ln(s)/4处找到第二个纯策略。J对B的依赖关系与B=-B有关。Givenour参数化,一个大B迫使两个粒子在同一自旋方向上,但第三个粒子进入另一个自旋方向,诱导相反的对齐。为了对抗这种情况,J必须非常大。ln(s)/4的约束直接从斜率分析的相关概率的计算中显现出来,从而直接编码有关Payo结构的信息。混合策略只适用于网络D-C-D,当A=0时,对于J=0和B=ln(s)/2,这与非相关BoS博弈的均衡解一致。当wo和三人相互作用参数均为零且B/B=-1时,当B参数为samevalue时,与BoS博弈的混合策略一样。另外两个网络中没有混合策略,因为一些玩家同时玩一个波和一个PC游戏,这两个游戏有两种混合策略解决方案,禁止-D-C-D-D和D-D-C网络的完全不相关的结果。本文对这三种网络均衡的研究自然还没有穷尽,这对今后的工作有一定的借鉴意义。

17
kedemingshi 在职认证  发表于 2022-4-16 11:35:14
我们把自己限制在第2类平衡,所以看看第3类平衡也可能会显示出有趣的结果。此外,我们对J和J,以及B和B的分配可以改变,以显示其他网络属性。例如,在D-C-D和-D-C-D-网络中,我们无法区分是由于玩家1和3之间缺乏游戏还是由于PC游戏的存在而出现了这种情况。因此,其他参数化也是可能的,例如根据链接的存在来标记交互强度。通过根据正在玩的游戏的数量和类型来分配一个di-erent磁场强度,磁场强度之间的关系也是di-erent的。在Broere等人[35]的研究中有这种参数化的证据,在文献中的其他结果的背景下,Hernandez等人[7]发现,通过将参与者的知识减少到局部水平,例如减少到他们自己的联系程度,与具有全局知识相比,纳什均衡集是有限的,因为需要调整的参数更少,这与Galeotti等人[36]的结果一致。这为最佳响应更新规则的使用提供了支持,它是有限计算能力和收敛到纳什均衡之间的一种很好的折衷,当参与者之间的局部相互作用传播到整个网络时,纳什均衡就会发生。在这种知识和关于网络度分布的概率信息的限制下,期望均衡是在-DC-D-和D-D-C网络中所有玩家都玩D,因为C节点可以有很高的度,但却是少数;而对于D-C-D网络,期望均衡是所有玩家都玩C,因为这个玩家位于网络的中心[7]。在我们的模型中,玩家通过三玩家概率分布间接获取全局知识,因此具有D偏好的节点数量具有很大的权重,这可以看到大部分均衡值发生在B>0。然而,这并不是确定性的,每个网络的初始相关性的整体集可以包含重新设置各种游戏规则的信息。事实上,我们的结果表明,通过量化与全局概率分布相关的直接参与者之间的局部关联度,可以量化间接参与者之间的关联度,这是网络中信息传播的特征。将我们的分析扩展到独立的两玩家关联构成了另一个进一步研究的方向。虽然我们主要是利用所有对之间共享的相互作用强度来研究三玩家网络,但施加双外磁器引入了双玩家游戏激励。这个结果可以用自旋挫折来理解,其中一个自旋粒子有竞争的动机来最小化它的能量。将用于三角纬度旋转挫败的技术应用于三人网络可以挖掘进一步的对称性,如果可以推广,将为模拟Nashequilibria.vii提供一个强大的工具。结论:网络上的不对称游戏,在具有欺骗偏好的代理人之间进行,解释了现实生活中的几个问题。对网络游戏的研究主要是从数值上进行的,其中依赖于邻近玩家的偏好或结果的更新策略决定了他们的行动,并且反复应用直到达到收敛。通过这个过程,一个玩家的行为超越了她的直接对手,这在所有玩家的结果中产生了潜在的相关性。用Ising模型描述具有相关性的网络的特性,为数值模拟中研究这些更新规则如何导致收敛提供了一条新的途径。

18
可人4 在职认证  发表于 2022-4-16 11:35:20
将斜率分析方法应用于研究具有三个参与者的网络子集上的相关存在的纳什均衡,提供了一个分析框架,以研究哪些相关可以在网络上产生平衡,这是一个直接的函数。我们的主要发现是,大磁链的渐近行为不仅是所有网络所共有的,而且包含了关于Payo结构的信息,而不对初始相关施加任何先验限制。这很重要,因为它暗示了ata通用行为可能可扩展到更大的网络,从而提高了运行昂贵计算的必要性。然而,仍然需要进一步的研究来评估是否可以使用这些三玩家设置作为构建块来描述更大的网络,最直接的是那些包含只有一个或两个连接度的节点。对于较小的参数值,网络细节变得越来越相关。另一个重要的结果是不平衡区域的存在以及它们重新正形到平衡的方式,这使得我们可以分析确定参与者如果想达到稳定的控制而不是不相关的解决方案,必须如何对特定的初始相关性做出反应。虽然需要进一步的工作来建立本文使用的相关性和数值模拟中的更新策略之间的直接对应关系,但我们研究了一些在涉及相关性时允许平衡的参数。特别是,通过我们的方法,我们可以量化这些如何依赖于玩家的偏好和他们随后相互玩的游戏。通过对ISING参数的映射,我们可以利用对外直接投资策略的对称性,比较不同网络之间的均衡。我们在我们的研究中证明,对于所有类型的网络,在平衡状态下都存在一个大的相空间来伴随关联。这与环网模拟的结果是一致的,在环网模拟中,在平衡条件下发现了复杂但仍然类似于伊辛的相关性。网络游戏中的相关性,除了数字模拟的艺术之外,在现实生活中也很明显,因为通常使用共享信号来达到收敛,尽管代理不能直接通信[4]。因此,量化一个游戏的许多变量之间的关系,一个网络规则,以及潜在的相关性可以有很大的社会价值。有了控制相关关系的微观伊辛参数的知识,我们现在可以使用适当的统计物理工具来观察和理解由此产生的宏观行为。当我们得出一系列解决这个问题的伊辛模型时,统计物理的高级方法还没有应用到这个问题上,我们在网络上研究游戏的方法反过来可以刺激统计物理的新发展。我们感谢凯文·彼得斯在BoS游戏中引入相关性的早期工作。我们也感谢Vincent Buskens的有益讨论,这些讨论提高了我们对模拟中更新策略的理解。这项工作是D-ITP联盟的一部分,D-ITP联盟是荷兰科学研究组织(NWO)的一个项目,由荷兰教育、文化和科学部(OCW)资助。这项工作也得到了UU Complex Systems基金的支持,特别感谢Peter Koeze。附录a:博弈论在这个附录中,我们为n个玩家提供了一个正式的相关博弈的博弈论处理。我们开始对战略形式的游戏及其纳什基利布里亚解决方案进行调整。然后,我们用相关关系展开这些博弈,并对相关均衡进行了分析。最后,我们介绍了生成重正相关集的响应策略,以及它处于相关平衡的条件。

19
能者818 在职认证  发表于 2022-4-16 11:35:27
这些联系可以用Payo函数的coe cients来表示,该coe cents用于评估哪些响应策略代表均衡。策略形式游戏由三个元素组成:n个玩家的集合I,I={1,2,...,n};纯策略空间Sifor每个玩家i∈i,表示每个玩家可用的游戏;以及Payo函数uiμi,μ-i,表示玩家i在玩μi∈SI,其他玩家则用-i,playμ-i∈S-i表示的增益。除了纯策略外,playerscan还玩混合策略,其中玩家i玩纯策略,概率σi(μi)。纯策略是混合策略的一个特例,它将概率1分配给纯策略空间的某个元素。玩家不确定他们的对手会玩什么,所以理性的玩家必须考虑所有可能的动作。考虑到这一点,Nashequilibrium保证每个玩家选择一个他们不想偏离的策略。如果对所有参与者i来说,我们有他们的平均支付量Obeywueσi,σ*-ii≥huiμi,σ*-ii,那么混合策略Profectionσ*ii就是纳什均衡。(A1)对于所有的Si∈Si。如果不等式是严格的,则得到一个纯策略均衡。对于表I中给出的BoSand PC博弈,两个博弈的特征为I=1,2,SI={C,D},Payo uiμI,μ-I。采用相同策略的两个博弈都是纯策略均衡。(A1)具有相应的Payo值。相关GamesA相关装置是一种概率分布,分布在所有可能的联合结果Ω的空间中,它通知每个玩家为了达到一定的结果ω∈Ω而应该玩什么。对于n个玩家,ω=μω··μωi··μωn,其中μωii是玩家i接收到的部分信息hi(ω),它取决于相关设备赋予ω的概率。如果没有一个主体能够通过单方面偏离相关装置的指令来改善他们的预期结果,那么这种情况就是相关均衡。策略PROFFILE(μω,...,μωi,...,μωn)是一个相关平衡[10],如果预先玩家i,xω∈Ωpωuiμωi,μω-i≥xω∈Ωpωuiμi,μω-i,(A2)与玩家i采用的除相关器件μωi推荐的策略之外的任何其他策略。在两人游戏和PC游戏中引入了关联,其状态空间为Ω={CC,CD,DC,DD},关联装置为概率Pμ,μ,其中μ∈sandμ∈S。对于三人游戏,可能结果的形式为μμμ,其关联由Pμμμ.A给出。响应概率响应策略给智能体自由选择是否遵循相关装置的指令作为他们自己的策略[27]。更具体地说,在前一个框架中增加了一组响应概率PiFμωi,它直接导致通知μωii后面不是玩家i的概率等于SPINFμωi=1-PiFμωi。对于n个参与者,响应概率从初始概率pω(ω=μω··μωi··μωn)到重整化概率prω的映射。将表达式从μωitoμii和μωitoμi简化,并将响应概率定义为转换概率piΩiμiaspi(R)iμi=δμi(R)IPIfμi+(1-δμi(R)i)PiNF(R)i,(A3)重整相关概率由asprω=xωpωnyipi(R)i(R)i给出。(A4)新的策略空间,其中动作要跟随或不跟随相关设备的指令,响应策略,定义一个新的博弈,相关博弈。对于这个博弈,代理iis的预期结果由huii=xμ,vprωuiω给出。(A5)这个框架中的均衡是这样一种情况,即给定另一个agent的策略,任何一个agent都可以通过改变自己的响应概率来提高自己的期望支付率。

20
kedemingshi 在职认证  发表于 2022-4-16 11:35:33
更正式地说,给定相关设备p和播放器i接收到的信息,一个N代理响应策略profielle(pi*fμi,如果对于所有i和所有pi(R)i(R)i)都是均衡的,则以下条件为真:xω,{ω\\μi}uiωpωpi(R)(R)i(R)(R)i(R)(R)i(R)i(R)i≥xω,{ω\\μi}uiωpΩpi(R)i(R)(R)i(R)i(R)i≥xω,{ω\\μi}uiΩpΩi(R)i(R)i(R)i(R)i,{ω\\μi}除向玩家i建议的策略外,为了达到状态ω,相关设备向每个玩家建议的纯策略集合。我们表示PF C,PF D,...,PnF C,PnF D的特定响应策略集合,不一定处于均衡状态,记住它总是相对于某个初始概率集合而言的,请记住,它总是相对于某个初始概率集合而言的,从上下文来看应该很清楚。如果我们想参考特定玩家i的策略与其对手-i的策略,我们将响应策略写为PIFμi,NP-IFμ-IO。预期结果,如EQ中所给出。(A5)是agents响应策略中的线性表达式。我们可以根据初始相关设备和对手响应策略的slopecoe-cients ciμias函数重写该表达式:Huii=Ci np-if-Io,pω+xμiciμi np-if-Io,pωpifμi。(A7)给定其他agents的响应策略,这些agents决定agenti的策略是否是关于他们自己响应策略的纳什均衡,这意味着他们不能通过单边偏离均衡解来改善他们的路由。在三种情况下是这样的:1。CIμI>0,且PiFμI=1;2。CIμI<0,PiFμI=0;3。两种情况给出了响应策略空间的纯平衡点,而最后一种情况给出了混合平衡点。对于每一个平衡倾斜的组合,可以计算出是否存在相关装置,对于这些装置,该策略导致了一个Nashequilibrium。为了保证一个策略同时对所有玩家是均衡的,在计算玩家-i的预期支付时,玩家-i的斜率Coe中使用的玩家-i的参数应该具有与这些参数的斜率Coe的符号一致的值。附录B:响应策略的组合。81个响应策略范围的PF C、PF D、PF C、PF D是两人性别之战游戏的可能解决方案。然而,一些策略产生的斜坡条件是不可靠的或不可靠的,从一开始就消除它们。我们写出了与动作玩家i玩的∑ias ci∑i p-ic,p-id关联的斜率,并依赖于其对手-i的响应策略p-i∑-i。在这个附录中,我们系统地评估了斜坡和响应策略对它们施加的条件,按斜坡总数等于零排序。将该等式强加于a斜率上,得到介于0和1.1之间的平衡概率pi*μi.没有一个斜率条件等于零。如果斜率条件不为零,那么它们只能是正的或负的,这意味着概率只能取0或1的值。这总共提供了2=16种可能性。其中,我们将去掉其中一个值占多数的8个,如(1,1,1,0),另外还有策略(1,0,0,1)和(0,1,1,0)。以示例策略为例,与player1播放D的概率相关的条件取valueCD(1,0)=-PDD-PDC,该值为负值。但是,为了其自身的一致性,播放器1应该始终遵循播放D的指令,这样CD>0。这与这个博弈的结构不一致,因此反应策略(1,1,1,0)不可能是均衡。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-18 05:47