楼主: nandehutu2022
2332 62

[量化金融] 顺序半匿名非原子博弈与它们的大博弈之间的联系 [推广有奖]

21
nandehutu2022 在职认证  发表于 2022-5-9 08:20:54
由于只有几个玩家,玩家1的一次性选择不仅像以前一样影响他自己未来的行为和状态,而且不同的是,从改变的行动环境εstxt开始,它还影响所有其他玩家的整个未来轨迹。注:εstxt在其对不同n(n)的预测中影响st+1=(st+1,1,…,st+1,n)的生成- 1) -根据(13)的规定,尺寸空间RSngnt(st,xt | dst+1)等于∏nm=1RSgt(stm,xtm,εst,-mxt,-m | dst+1,m)。每n∈ N\\{1},让^πN-1,[1\'t]=(πn)-1,t | t=1。。。,“\'t”)∈ (P(序号-1) )t一系列其他玩家的多州发行版。为了≥ 0,我们认为χ[1\'t]=(χt|t=1,\'t)∈ (K(S,X))tan-博弈族的马尔可夫均衡(Γn(S)|S∈ Sn)在^πn的意义上-1,[1\'t]当每t=1。。。,\'t,ξ[t\'t]∈ (K(S,X))t-t+1和st1∈ S、 RSn-1^πn-1,t(dst,-1) ·vnt(st1,χ[t\'-t],εst,-1,χ[t\'-t])≥RSn-1^πn-1,t(dst,-1) ·vnt(st1,ξ[t\'t],εst,-1,χ[t\'-t])- .(27)也就是说,行动计划χ[1\'t]将是^πn意义上的-马尔可夫均衡-1、[1\'t]在该计划的指导下,任何时期t和参与者1状态st1on的平均收益不能通过任何单边偏差提高超过,其中“平均”基于其他参与者的多状态st,-1从分布^πn中取样-1,t.注意(27)与(23)的不同之处在于,其单边偏差不需要是一次性的。6.3主要瞬态结果在继续之前,我们需要单周期支付函数Ft是连续的。假设2每个支付函数ft(s,x,τ)在作用环境τ中以(s,x)独立的速率连续。

22
nandehutu2022 在职认证  发表于 2022-5-9 08:20:57
也就是说,对于任何τ∈ P(S×X)和>0,存在δ>0,因此对于任何τ′∈ 满足ρS×X(τ,τ′)<δ和任意(S,X)的P(S×X)∈ S×X,|ft(S,X,τ)-~ft(s,x,τ′)<。现在,我们展示了有限博弈价值函数与其NG对应函数的收敛性,这一点在技术上非常好,并调用了命题1的(i)和(iii)。对于任何t=1,2,…,的命题2。。。,\'t+1,让σt∈ P(S)与πn-1,t∈ P(Sn)-1) 每n∈N.假设序列^πN-1,t符号上类似于序列σn-1t。那么对于任何χ[t\'t]∈ (K(S,X))t-t+1,序列号-1^πn-1,t(dst,-1) ·vnt(st1,ξ[t\'t],εst,-1,χ[t\'t])将以与st1无关的速率转化为vt(st1,ξ[t\'t],σt,χ[t\'t])∈ S和ξ[t\'t]∈ (K(S,X))t-t+1。结合(23)和(27),以及命题2,我们可以得出主要结果。关于某些σ的定理2∈ 假设χ[1\'t]=(χt|t=1,2,…,t)∈ (K(S,X))是NGΓ(σ)的阿马尔科夫平衡。同样,假设πn-1,[1\'t]=(πn)-1,t | t=1,2。。。,“\'t”)∈ (P(序号-1) )这使得序列^πn-1,t在符号上类似于序列σn-对于每个t,其中σt=t[1,t-1] (χ[1,t]-1]) o σ. n,对于>0且足够大的n∈ N、 给定的χ[1\'t]也是遗传家族(ΓN(s)|s)的-马尔可夫均衡∈ Sn)在^πn的意义上-1,[1\'t]。该定理表示,在一个大型有限博弈中,只要另一方的多状态分布^πn,博弈方就可以在一个NG均衡上达成一致,并且平均损失很小-1,“averag e”所基于的Ton类似于产品形式σn-1t,其中σt=t[1,t-1] (χ[1,t]-1])oσ是相应NG在同一时期的可预测平衡状态分布。Asto是否合理^πn-1,[1\'t]=(πn)-1,t | t=1,2。。。,为了满足这个条件,答案是肯定的。

23
nandehutu2022 在职认证  发表于 2022-5-9 08:21:00
下一节专门讨论这一点。7定理2中的条件我们现在给出一些例子,其中定理2中的关键条件为真。在所有这些情况下,我们让初始的其他参与者多状态分布^πn-1,1=σn-1=σn | Sn-1、也就是说,从NG的初始状态分布σ中随机抽取n人博弈中welet玩家的初始状态。现在我们来讨论在t=2,3。。。,\'t.7.1两种可能性首先,我们可以让每个^πn-1,t=σn-1t。在定义序列σn之后,就对其进行了讨论-它与自己近似。所以这个选择满足了OREM 2中的条件。这与大型有限游戏中的玩家采取“懒惰”的方法,即使用NG状态分布的独立绘制来评估其对手的状态的情况相对应。注意这是合理的,因为两种类型的游戏和定理1都有共同的初始条件。第二,我们可以让每个^πn-1,t=πnt | Sn-1,其中πnt=σn⊙ πt-1t′=1(χnt′)⊙ ~gnt′)。(28)根据(19),πNt代表玩家在n-playergame的t周期内的多状态分布,当玩家的初始状态从分布σ中随机抽取,然后从第1周期开始,玩家都遵循NG平衡χ[1\'-t]。由于序列σ在符号上与自身相似,定理1将确定πnto与σnt的渐近相似性。然后,附录A中的引理5将导致^πn的渐近相似性-1-1t。所以这个选择也满足定理2的条件。此外,它的含义很清楚,在大型有限公司中,如果其他参与者一直遵循NG均衡,他们会使用精确的评估来评估他们的状态。7.2补充和第三个精选矿-他不赞成一个玩家在评估另一个玩家的多重状态时,可能会涉及到他自己的状态,-1.

24
大多数88 在职认证  发表于 2022-5-9 08:21:03
我们现在证明,当状态空间S是有限的时,这是可能的。在这种情况下,我们可以升级^πn-1,t∈ P(Sn)-1) 位置2到πn-1,t(·)=(πn-1,t(st1 |·)| st1∈ (S)∈ (P(序号-1) )获得SN的收敛性-1^πn-1,t(st1 | dst,-1) ·vnt(st1,ξ[t\'t],εst,-1,χ[t\'t])到vt(st1,ξ[t\'t],σt,χ[t\'t]),在st1独立个体中。这将引导我们到定理2的以下扩展版本。定理3假设σ[1,\'t+1]和χ[1\'t]都与定理2中的相同。同样,假设πn-1、[1’t](·)=(πn)-1,t(st1 |·)| t=1,2。。。,\'t,st1∈ (S)∈ ((P(Sn)-1) )S)’这使得序列^πn-1,t(st1 |·)渐近类似于序列σn-1用于ea ch t和st1。然后,对于大于0且足够大的n∈ N、 每t=1。。。,\'t,ξ[t\'t]∈ (K(S,X))t-t+1和st1∈ S、 RSn-1^πn-1,t(st1 | dst,-1) ·vnt(st1,χ[t\'-t],εst,-1,χ[t\'-t])≥RSn-1^πn-1,t(st1 | dst,-1) ·vnt(st1,ξ[t\'t],εst,-1,χ[t\'-t])- .为了满足定理3中的条件,我们仍然可以让^πn-1、[1’t](·)与上述两个示例中相同,其中新添加的st1依赖性是静音的。但阿蒂德·乔冰将允许每个玩家对其他玩家的状态进行全面的贝叶斯更新。在第三种选择中,我们仍然使用(28)来定义πnt。

25
何人来此 在职认证  发表于 2022-5-9 08:21:08
然后,只要σt(st1)>0,我们让^πn-1,t(st1 |·)=πnt,S | Sn-1(st1 |·),(29)当以当前玩家的状态st1为条件时,可从πNt导出的另一玩家多状态分布;否则,我们就让^πn-1,t=πnt | Sn-1就像第二个例子一样。注意,边际πnt |由πnt | S({st1})=πnt({st1}×Sn)定义-1), st1∈ S、 (30)和每个条件分布πnt,S | Sn-1(st1 |·)由πnt,S | Sn定义-1(st1 | S′)=πnt({st1}×S′)πnt | S({st1})=πnt({st1}×S′)πnt({st1}×Sn)-1), S′∈ B(Sn-1) ,(31)当分母严格为正,否则为任意值。7.3对称性使其有效——唯一的事实是πn与σntis的交感相似性实际上远远不能描述由此定义的^πn的渐近相似性-1,t(st1 |·)到σn-1t。注意,对于一般的qn重构某些pn,附录A中的引理6几乎排除了πn | Ato p的收敛性,更不用说qn,A | An的渐近相似性了-1至pn-1.完全地,πNt仍然具有对称的附加特征。对任何人来说∈ N、 设ψnbe为所有N维置换的集合。也就是说,每个ψ∈ ψnmakes(ψ(1)。。。,ψ(n))是(1,…,n)的置换。对于给定的ψ∈ ψn,设ussupposeψa=(aψ(1)。。。,aψ(n))对于任何a=(a,…,an)∈ 然后是ψA′={ψA|A∈ 对任何一个 一注意,由于其固有的对称定义,B(An)在B(An)={ψA′|A′的意义上是自动对称的∈ 任意ψ的B(An)}∈ ψn.n的定义2∈ N和可分度量空间A,我们是y-qn∈ P(An)对称ifqn(A′)=qn(ψA′),ψ ∈ ψn,A′∈ B(安)。我们得到了一个急需的结果:当qn对称时,qnto-pn的渐近平衡确实导致qn | atop的收敛。这与引理6形成了鲜明的对比。命题3设A为离散度量s和qn∈ 每个n的P(An)∈ N对称。假设序列qn在符号上类似于序列pn。

26
可人4 在职认证  发表于 2022-5-9 08:21:11
然后,序列qn | a将转换为p,即limn→+∞qn | A({A})=每A的p({A})∈ 答:这就导致了qn,A | An的相似性-1至pn-1.命题4设A为离散度量s和qn∈ 每个n的P(An)∈ N对称。假设序列qn在符号上类似于序列pn。然后,序列qn,A | An-1(a |·)w i将渐近类似于序列pn-1对于任何∈ p({A})>0的A。注意,πn1等于σn,是对称的。正如(28)所建议的那样,它要经过的运算是对称的。因此,πNTI是对称的。因此,根据命题3,(30)中定义的边际概率πnt | Sas将收敛到g态分布σt;因此,条件分布πnt,S | Sn-当σt(st1)>0时,(31)中定义的1(st1 |·)将得到很好的定义。那么,命题4可以保证^πn-(29)中定义的t(st1 |·)将渐近类似于σn-因此有助于促进定理3所需的条件。上述情况表明,即使玩家使用自己的状态信息对其他玩家的状态进行最精确的贝叶斯更新,他们也不会因为坚持NG均衡而平均看到多少遗憾。8静止情况现在,我们研究具有静止特征的有限水平模型。为此,我们保留了Sand X,但要有一个折扣系数\'α∈ [0,1)。有一个支付函数f满足基本的可测性和有界性要求,因此ft=αt-1·f或t=1,2。。。。。让我们用“f”表示(1)中出现的束缚f。此外,还有一个状态转换内核g∈ G(S,X),所以对于t=1,2。。。。对于χ∈ K(S,X),用P(S)上的算子T(χ)表示,所以对于任何σ∈ P(S),T(χ)o σ = σ ⊙ χ ⊙ ~g(·,·,σ) χ).

27
nandehutu2022 在职认证  发表于 2022-5-9 08:21:14
(32)因此,状态转移因Γg的平稳性而变得平稳。表示由上述S,X,Γα,Γf和Γg形成的平稳非原子博弈∞. 它有助于第一次研究在t+1,fort=0,1。。。。现在让vt(s,ξ[1t],σ,χ[1t])为球员在s状态开始时可以获得的总预期报酬∈ 在第1阶段中完成,并通过行动计划ξ[1t]∈ (K(S,X))t从周期1到t,而所有其他参与者形成状态分布σ∈ P(S)在开始时根据χ[1t]采取行动∈ (K(S,X))t从周期1到t。作为终端条件,我们有v(S,σ)=0。同样,对于t=1,2。。。,vt(s,ξ[1t],σ,χ[1t])=RXξ(s | dx)·[~f(s,x,σ) χ) +α·RS~g(s,x,σ) χ| ds′)·vt-1(s′,ξ[2t],T(χ)o σ、 χ[2t])]。(33)使用终端条件和(33),我们可以归纳地显示|vt+1(s,ξ[1,t+1],σ,χ[1,t+1])- vt(s,ξ[1t],σ,χ[1t])|≤ αt·f.(34)给定s∈ S、 ξ[1]∞]= (ξ, ξ, ...) ∈ (K(S,X))∞, σ ∈ P(S)和χ[1]∞]= (χ, χ, ...) ∈(K(S,X))∞, 序列{vt(s,ξ[1t],σ,χ[1t])|t=0,1,…}因此是柯西,有一个极限点v∞(s,ξ[1]∞], σ, χ[1∞]). 后者是玩家在游戏Γ中获得的总折扣预期报酬∞, 当他从s州开始并通过行动计划ξ[1]时∞], 同时,让玩家形成初始的动作前环境σ,并按照χ[1]进行动作∞].行动前的环境∈ P(S)被认为与χ有关∈ 当σ=T(χ)时的K(S,X)o σ. (35)也就是说,当环境σ与行动计划χ相关联时,前者在一个周期的过渡期内不变,而所有参与者都遵守后者。

28
kedemingshi 在职认证  发表于 2022-5-9 08:21:18
对于χ∈ K(S,X),我们使用χ∞代表固定政策文件(χ,χ,…)∈ (K(S,X))∞在所有时间段t=1,2。。。。我们认为一次性行动计划∈ K(S,X)非经济对策Γ的平稳马尔可夫均衡∞, 当存在σ时∈ 与给定χ相关的P(S),因此对于每一次单边偏差ξ∈ K(S,X),v∞(s,χ)∞, σ, χ∞) ≥ 五、∞(s,(ξ,χ)∞), σ, χ∞), s∈ 因此,当一项政策导致一个不变的环境,在这个环境的影响下,该政策最终会成为长期的最佳反应时,它将被视为一种均衡。现在我们进入n人游戏Γ∞n由相同的S,X,`α,`f,和`g组成。与上述类似,我们让Γtn作为它的n-玩家对应物,终止于周期t+1。现在让vtn(s,ξ[1t],εs-1,χ[1t])是玩家1在游戏Γnt中从状态s开始时可以获得的总预期报酬∈ S并通过行动计划ξ[1t]∈ (K(S,X))t,而其他参与者形成初始经验分布εS-1=ε(s,…,sn)∈ Pn-1(S)和doptpolicyχ[1t]∈ (K(S,X))t从1到t。作为终端条件,我们有vn(S,εS)-1) = 0. 福特=1,2。。。,它遵循tvtn(s,ξ[1t],εs-1,χ[1t])=RXξ(s | dx)·RXn-1χn-1(s)-1 | dx-1) ·[~f(s,x,εs)-1x-1) +α·RSn~gn(s,x|ds′)·vt-1n(s′,ξ[2t],εs′)-1,χ[2t])]。(37)使用终端条件和(37),我们可以归纳地表明|vt+1n(s,ξ[1,t+1],εs-1,χ[1,t+1])- vtn(s,ξ[1t],εs-1,χ[1t])|≤ \'αt·\'f。

29
mingdashike22 在职认证  发表于 2022-5-9 08:21:23
(38)给定∈ S、 ξ[1]∞]∈ (K(S,X))∞, εs-1.∈ Pn-1(S)和χ[1∞]∈ (K(S,X))∞, 序列{vnt(s,ξ[1t],εs-1,χ[1t])|t=0,1,…]是柯西,有一个极限点v∞n(s,ξ[1]∞], εs-1, χ[1∞]).后者是一个玩家在Γ中可以获得的总折扣预期报酬∞n、 当他开始陈述并通过行动计划ξ[1]∞], 而所有其他参与者形成了最初的行动前环境εs-1并根据χ[1]采取行动∞].对于当前设置,应注意的是,假设1和2分别以(s,x)独立的速率转化为τ的连续性,转换核@g(s,x,τ)和支付函数@f(s,x,τ)。现在我们给出了静止情况下的主要结果。定理4假设χ∈ K(S,X)是平稳非原子对策Γ的平稳马尔可夫均衡∞. 设πn-1.∈ P(Sn)-1) 每n∈ N\\{1}。也假设序列^πn-1与序列σn有交感相似性-1,其中σ与平衡定义(35)和(36)中的χ相关。那么,χ∞对于对策Γ是渐近平衡的∞在一般意义上。更具体地说,对于任何大于0且足够大的n∈ N、 ZSn-1^πn-1(ds)-1) ·v∞n(s,χ)∞, εs-1, χ∞) ≥ZSn-1^πn-1(ds)-1) ·v∞n(s,ξ[1]∞], εs-1, χ∞) - ∈ S和ξ[1]∞]∈ (K(S,X))∞.定理4说,在一个大型固定博弈中,玩家不会因为对相应的固定非原子博弈采用统计均衡而感到后悔。只要潜在的其他参与者多状态分布^πn-1接近于与NG平衡相关的不变σ。正如在第7节中,我们可以让^πn-1=σn-1,表示玩家在其他玩家的状态下采取“懒惰”的方式。

30
何人来此 在职认证  发表于 2022-5-9 08:21:26
我们把其他可能性的讨论放在主要结果的E.9含义后面。1观察、记忆和协调关于定理2和3,我们注意到以下关于“t周期博弈”的内容。平衡χ[1\'t]的一个显著f值∈ (K(S,X))指的是它在任何时期t对球员的个人历史(st′,xt′|t′=1,2,…,t)不敏感- 1) ,其他玩家的历史数据,以及其他玩家状态的最新信息。前两个因素的独立性在很大程度上与该游戏的马尔可夫设置有关,无论是ftn还是gtn都不取决于过去的历史。但后两个因素更有趣的独立性来自玩家对其环境演变的共同认识。(σt′)χt′|t′=1,2。。。,T-1) 历史和当前信息的比例σt,而不是其他玩家,在游戏结束之前由(10)决定。然而,对于有限的半匿名游戏来说,信息是逐渐被披露出来的,它的完美性也不能保证。我们可以定义空间OSA,并绘制oS:P(S)→ OSto代表玩家在实际比赛前对其当前的赛前环境的观察能力。类似地,我们可以定义空间oSX并映射oSX:P(S×X)→ Osxtore展示了他对刚刚经历的实际环境的观察能力。因此,新信息不会与旧信息相矛盾,也不会丢失任何信息,我们假设函数为oSXS:OSX→ OSexists,对于任何τ,都有∧oSXS(∧oSX(τ))=∧oS(τ| S∈ P(S×X)。有了这些定义,玩家在t时期的决定可以用一个图^χt:(s×X×OSX)t来表示-1×OS×S→ P(X)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-24 21:02