楼主: 何人来此
1678 57

[量化金融] 2 x 2游戏中学习动力的分类 [推广有奖]

51
kedemingshi 在职认证  发表于 2022-5-31 03:09:15
Sato和Crutch field(2003)假设景点的演变发生在不同于概率演变的时间尺度上,Galla和Farmer(2013年,补充信息,第二节)使用拉格朗日乘数法。这里我们简单地从公式(6)开始,取极限α→ 0,β→ 0,因此α/β的比率是有限的。在这个极限中,我们设置κ=1,而不丧失一般性。我们也只对x(t)的计算进行了形式化,因为y(t)的计算是相同的。为了简单起见,我们在这里用xt表示x(t),用yt表示y(t)。取等式(6)中的日志,我们得到ln xt+1=(1- α) ln xt+β[δ+(1- δ) xt]∏R(yt)-ln公司x1-αteβ[δ+(1-δ) xt]∏R(yt)+(1-xt)1-αeβ[δ+(1-δ) (1)-xt)∏R(yt). (36)通过取极限α,分母的对数可以大大简化→ 0,β→ 0、在此限制中x1-αt=xtx-αt=xteln x-αt=xte-αln xt≈ xt(1- αln xt)(37)和β[δ+(1-δ) xt]∏R(yt)≈1+β[δ+(1- δ) xt]∏R(yt). (38)通过忽略O(α)(或等效O(β),因为α/β的比率是有限的),我们可以写出x1-αteβ[δ+(1-δ) xt]∏R(yt)+(1-xt)1-αeβ[δ+(1-δ) (1)-xt)∏R(yt)≈ln公司xt公司1.- αln xt+β[δ+(1- δ) xt]∏R(yt)+(1)- xt)1.- αln(1- xt)+β[δ+(1- δ) (1)-xt)∏R(yt)=ln公司1+xt-αln xt+β[δ+(1- δ) xt]∏R(yt)+(1)- xt)-αln(1- xt)+β[δ+(1- δ) (1)-xt)∏R(yt)≈xt公司-αln xt+β[δ+(1- δ) xt]∏R(yt)+(1)-xt)-αln(1- xt)+β[δ+(1- δ) (1)-xt)∏R(yt).(39)将其替换为等式(36)并重新排列给定值ln xt+1- ln xt=β[δ+(1- δ) xt]∏R(yt)- xt[δ+(1- δ) xt]∏R(yt)-(1)- xt)[δ+(1- δ) (1)-xt)∏R(yt)- α(ln-xt- xtln xt- (1)-xt)ln(1- xt))。

52
nandehutu2022 在职认证  发表于 2022-5-31 03:09:18
(40)可以将所有内容除以β并重新缩放时间,以便β给出一个时间单位。然后在极限β内→ 0上述方程式的左侧为IMβ→0ln xt+β- ln xtβ=˙xx(41)当κ=0的情况被排除在经验的稳态条件之外时,κ只是乘以β的常数。x的学习动态可以连续写为˙xx=[δ+(1- δ) x]∏R(y)-x[δ+(1- δ) x]∏R(y)-(1)- x) [δ+(1- δ) (1)-x) ]πR(y)-αβ(ln x- x ln x- (1)- x) ln(1- x) )。(42)这通常是方程(6)中EWA动力学的连续时间近似值。在δ=1的情况下,替换∏Rand∏R的表达式,我们得到˙xx=ay+b(1-y)-(轴+bx(1-y) +c(1-x) y+d(1-x) (1)-y) ()-αβ(ln x- H(x)),(43),其中H(x)=x ln x+(1-x) ln(1-x) 是混合策略的信息熵(x,1-x) 。这是Sato and Crutch fi field(2003)中分析的动力学。如果α=0,即在不确定性条件下,上述方程将简化为两种群复制动力学的标准形式(Hoffauer和Sigmund,1998)。分析循环对策中等式(43)的稳定性是有用的。我们根据A、B、C和D重写了replicatordynamics(43),因子A 1- x项并写出相应的y方程:˙x=x(1-x)4Ay+2(B-A) +αβ(ln(1- x)-ln x),˙y=y(1- y)4Cx+2(D- C) +αβ(ln(1- y)-ln y).(44)根据第7.1节的分析,我们将重点放在B=D=0和c=-A、 即匹配的便士。在这种情况下,复制器动态的固定点是(0,0),(0,1),(1,0),(1,1)和(1/2,1/2)。对于α的任何值,固定点(0,0)、(0,1)、(1,0)和(1,1)总是不稳定的。固定点(1/2,1/2)的特征值为λ±=-αβ±iA。

53
mingdashike22 在职认证  发表于 2022-5-31 03:09:21
(45)由于连续动力系统固定点的稳定性取决于特征值的实部是否为正,很容易看出(1/2,1/2)在α>0时总是稳定的。因此,具有有限内存的复制子动力学总是收敛于混合策略NE。当α=0时,固定点变得略微稳定,learningdynamics围绕NE旋转。这恢复了进化博弈论的标准结果(Hoffauer和Sigmund,1998)。然而,请注意,如果B 6=0或D 6=0,则策略空间中固定点的位置取决于α/β,并且可以任意远离混合策略NE。S2附加结果S2.1命题1证明。我们只证明了我们有一个协调对策(由a>c,e>g,d>b,h>f定义)当且仅当| a |>b |,| c |>d |,a>0,c>0。其他情况类似。我们首先证明了协调博弈意味着| a |>B |、| C |>D |、a>0和C>0。首先,当a>c和d>b时,a为正,a=(a- c+d- b) >0。然后,由于A>0,表达式| A |>| B |可以写为A>| B |。如果B>0,则此表达式可以进一步写入A- B>0。这种不平等确实可以从条件D中得到满足- b>0定义了一个协调博弈,即- B=2(d- b) >0。如果B<0,我们需要检查A+B>0,这是从其他协调博弈条件A获得的- c>0,即A+B=2(A- c) >0。C和D的论点是类似的。接下来,我们考虑A、B、C和D上的条件意味着一个协调博弈。考虑B>0而不丧失一般性。因为A也大于0,所以我们可以去掉条件| A |>| B |中的绝对值,它变成A- B>0。这意味着d>b。我们仍然需要证明a>c,这并不简单地遵循a的定义,a=(a-c+d- b) >0。

54
mingdashike22 在职认证  发表于 2022-5-31 03:09:26
事实上,A的定义仅意味着-c>-(d)- b) 但因为我们刚刚证明了d-b>0时,该条件也可以满足-c<0。但是,如果- c<0,我们有B=(a- c- (d)- b) )<0,这与我们之前的假设相矛盾。同样的考虑也适用于C和D.S2.2混沌动力学0.0 0.2 0.4 0.6 0.8 1.01.00.80.60.40.20.0x(a)0.0 0 0.2 0.4 0.6 0.8 1.0-0.5-0.3-0.10.10.30.5(b)图S1:分岔图和最大Lyapunov指数λ,α在0和1之间变化。循环动力学和混沌动力学交替出现,α值越小,越有可能出现混沌。0.0 1.0 2.0 3.0 4.0 5.0A0.01.02.03.04.05.0B(a)0.0 1.0 2.0 3.0 4.0 5.0A0.01.02.03.04.05.0B(b)0.20.10.00.10.2Lefigure S2:反对称博弈中作为a和b函数的最大Lyapunov指数(C=-A、 D=-B) 。从绿色到红色的颜色表示混沌动力学,而蓝色表示收敛到周期吸引子,周期吸引子可以是极限环或固定点。在面板(b)中,玩家的内存更长。混沌动力学:为了检查动力学是混沌的还是(准)周期的,我们考虑一个分岔图并计算Lyapunov指数。在图S1中,我们确定了一个支付矩阵(我们使用图5(d)的示例,即A=-C=-3.4和B=-D=-2.5),并将选择的灵敏度设置为β=1。然后改变记忆损失参数α。对于任何α,所有固定点都是不稳定的∈ [0,1]。在面板(a)中,我们展示了产生的分岔图。对于α的每个值,我们绘制轨迹过程中动力学访问的坐标x,丢弃初始瞬态。当只有少量x值时,例如α∈ [0.4,0.5],这些值之间的动力学循环。

55
何人来此 在职认证  发表于 2022-5-31 03:09:29
相反,对于给定的α值,动力学访问相空间的重要部分,如α∈ [0,0.2],动力学是混沌的。这在面板(b)中得到了证实,其中我们绘制了最大李亚普诺夫指数(LLE)λ;该指数量化了附近轨迹的指数散度(Ott,2002),正值表示混沌动力学。图S2显示,如果玩家有较长的记忆,则会更频繁地观察到混沌。事实上,在面板(b)中,我们将α=0.01,β=1,而在面板(a)中,α=0.7。如果其中一个动作对另一个动作起主导作用,即B>0,则混沌会占据参数空间的较大部分,而B=0的情况则相反。如果B>A,则LLE始终为负值,因为动力学达到固定点(与图4所示的图表一致)。对于支付的中间值,即对于大的A和B,这个值更大。S2.3任意支付对于一个玩家的支付比另一个玩家的支付大得多的游戏,具有约束支付的游戏和具有任意支付的游戏之间最有趣的区别出现在游戏中。在不丧失一般性的情况下,考虑这样一种情况,即payoff to Column远大于payoff to Row。在这种情况下,D>>B和C>>A。由于回报较大,Column有最强的动机来执行更好的行动,因此他使用更接近纯策略的混合策略。我们用图S3中的具体示例来说明这一点,其中我们还显示了函数ψR(¢x?)和ψC(¢y?)。在面板(a)和(b)中,玩家行的回报较小,因此激励较低。因此,x总是比y更接近策略空间的中心。在面板(c)中,我们显示了与图4中案例(b)相似的支付矩阵,除了玩家列的较大支付使得唯一固定点(10)不稳定。图S3:B 6=D和A 6=C的不对称博弈示例。

56
可人4 在职认证  发表于 2022-5-31 03:09:33
这些博弈类似于同一类中具有约束支付(A=±C和B=±D)的博弈,即分别针对面板(A)至(C)的协调博弈、优势可解博弈和循环博弈。唯一的区别是,拥有最高回报的参与者(以及最强烈的激励)采取的是更接近纯策略的混合策略。S2.4随机学习0.0 0.2 0.4 0.6 0.8 1.01.00.80.60.40.20.0x(a)0.0 0.2 0.4 0.6 0.8 1.0-0.5-0.3-0.10.30.5(b)图S4:分岔图和最大Lyapunov指数λasα在0和1之间变化。该图与图S1相同,只是这里我们考虑随机学习。对于α的小值,混沌对噪声具有鲁棒性。在图S4中,我们显示了分叉图和作为随机学习α函数的最大Lyapunov指数。该图与图S1相似,与噪声对动力系统影响的理论研究一致(Crutch fifield等人,1982)。图中显示,混沌对噪声具有鲁棒性,因为LLE对α为正∈ [0,0.3]。对于α>0.6,动力学仅访问几个点,如图(a)所示。这是因为玩家的记忆很短,所以可能只有少数不同的动作历史。在没有记忆的极端情况下,α=1,每个玩家将在两点之间“跳跃”,对应于对手在任何时间步可能采取的两个动作。实际上,在图S1(a)中,对于α=1,动力学仅访问两个点(x=0和x≈ 0.85)。这种影响在确定性动力学中是不存在的,因为参与者选择行动的分布。S2.5一些额外的参数组合我们涵盖了一些以前没有考虑过的参数和支付组合,并表明我们的分析结果可以直接用于理解这些情况下的学习行为。考虑以下支配可解游戏1、6、5、,-23、2、1、,-2..

57
nandehutu2022 在职认证  发表于 2022-5-31 03:09:36
(46)假设δ=1(充分考虑放弃的支付),动力学是确定性的,并考虑α、β和κ的任何值。我们可以期待什么样的动力?支付组合为A=-1.5,B=0.5,C=1,D=3。支付不满足A=±C,B=±D类型的任何约束。与第S2.3节不同的是,对一个参与者的支付不仅仅是对另一个参与者支付的重新调整版本,因此支付的幅度不是基线场景的唯一差异。然而,根据我们的分析,我们可以定性地理解学习的结果。由于A和C有不同的符号,等式(10)中的函数ψR(·)和ψC(·)单调减少,因此在策略空间的内部只能有一个固定点。该博弈是优势可解的,虽然B和D都有相同的符号,但情况类似于图4中的图左上角,其中B和Dhad的符号相反。如果α/~β=α/{β[1-(1)-α) (1)-κ) ]}很小,固定点靠近游戏的唯一纯NE,位于(sR,sC)。相反,如果α/¢β较大,则固定点位于策略空间的中心。因为| D |>B |,最终,玩家栏的策略总是比玩家行更接近纯均衡,这与S2.3节中的分析一致。现在放松假设δ=1。因为我们不想限制α取α=0,所以第7.3节中的分析不直接适用。然而,δ和α/¢β的组合效应很简单。α/¢β的正值将所有固定点推向战略空间的中心,因此第7.3节中讨论的类型的“锁定”固定点变得不太可能。通过模拟等式(46)中游戏的EWA方程,确定κ=0.5,β=0.5,并改变δ和α,可以证实这一点。

58
nandehutu2022 在职认证  发表于 2022-5-31 03:09:39
我们考虑五个值δ=0.00、0.25、0.50、0.75、1.00和几个α值∈ [0,0.5]。我们模拟动力学并在最后的时间步中记录x变量,得到图S5中的分岔图。考虑显示确定性动力学的左侧面板。根据第6节中的分析,随着α/¢β变大,固定点向战略空间的中心移动。这对于δ的所有值都是正确的。然而,对于δ=0,0.2,在x=1处存在额外的固定点。这是第7.3节中所述的“锁定固定点”之一,并且仅存在于α/¢β的较小值。图S5:通过模拟一些参数δ和α/~β值的EWA方程获得的分岔图(我们只显示了x,游戏者行的混合策略)。x=1的固定点仅适用于δ=0、0.2和较小的α/~β值。最后,在第7.4节中,我们讨论了我们的结果对随机性的稳健性,但我们分别固定了κ和δ到κ=1和δ=1。图S5的右侧面板显示了本节中考虑的参数值对随机性的鲁棒性。(分叉图中的点密度表明,x的值通常与确定性值相近,尽管有时会更大。)虽然在本节中,我们并没有声称我们可以明确地完全描述参数空间,但我们展示了一个尚未分析的游戏和参数组合,但其行为可以从之前的分析中定性地理解。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-25 13:30