楼主: 何人来此
1541 33

[量化金融] 不完全信息博弈与近视均衡 [推广有奖]

21
何人来此 在职认证  发表于 2022-6-2 21:30:20
条目aki、jandbki、jin Akan和Bk分别为第一和第二玩家的报酬。假设状态为k,则玩家一的移动为i,玩家二的移动为j。游戏的策略与西蒙、斯皮兹、托鲁恩齐克(1955)和奥曼、马斯切勒(1995)中描述的策略相同,但支付方式有所不同。为完整起见,我们将在下面描述战略和支付结构。玩家一的行为策略是有限序列α=(α,α,…)这样,对于每个lα,都有一个K×(I×J)l的映射-1至(一) 。参与者二的行为策略是一个有限序列β=(β,β,…)这样,对于每个lβ,从(I×J)l映射-1至(一) 。设I和J分别是参与者1和参与者2的行为策略集。将长度为l的有限播放历史集定义为Hl:=K×(I×J)l,将Hklto定义为任意固定K的子集{K}×(I×J)l∈ K、 每对行为策略α∈ I和β∈ J在Hkl上引入概率度量ul,kα,β,并且通过初始概率psuch a对在Hl上引入概率度量ulα,β。为了确定支付,对于bot h玩家i=1,2,有一个有限序列λi,λi,λinof非负实数,λi=λi+····+λinad0≤ λi≤ 1、每小时∈ h=(k,i,j,…,in,jn)定义fn(h)到bePnl=1λlakil,jl和fn(h)到bePnl=1λlbkil,jl。每小时∈ Hmwithh=(k,i,j,…)。

22
何人来此 在职认证  发表于 2022-6-2 21:30:23
,im,jm)定义fm(h)为bemPml=1kil,jl和fm(h)为bemPml=1kil,jl。均衡是一对行为策略α∈ I和β∈ J每k∈ Kak=ZHknfn(h)dun,kα,β+(1- λ) limm公司→∞zhkmfm(h)dum,kα,β和bk=ZHknfn(h)dun,kα,β+(1- λ) limm公司→∞ZHkmfm(h)dum,kα,β存在,并且对于每对α*∈ I和β*∈ JZHnfn(h)dunα*,β+ (1 - λ) limm公司→∞supZHmfm(h)dumα*,β≤XkpkakandZHnfn(h)dunα,β+(1- λ) limm公司→∞supZHmfm(h)dumα,β*≤Xkpkbk。上述游戏我们称之为Neyman游戏,以区别于Aumann和Maschler(1995)介绍的传统不完全信息的完全重复游戏。如果λi=0,对于两个i=1,2,则博弈为此处所述的一个博弈,而上述是此类博弈均衡的定义。注意用于定义平衡的行为策略的不对称性。玩家一方的策略使用自然状态的知识,因此相对于玩家二的固定策略,最大化可以在每个状态独立执行。玩家二对自然状态的了解仅来自于根据玩家一选择的策略和采取的行动计算出的贝叶斯条件概率。关于Aumann和Maschler(1995)中反复出现的游戏,这些aut-HOR在R.Stearns的帮助下引入了一个称为联合计划的解决方案概念。对于任何p∈ (K) 定义a*(p) 由矩阵A(p)确定的零和ga值:=Pk∈KpkAk,其中pki是p赋予状态k的概率∈ K、 同样,定义b*(p) 为矩阵B(p)确定的零和值:=Pk∈KpkBk。Avector x公司∈ 当x·q时,RKis对玩家1是单独理性的≥ 一*(q) 所有q∈ (K) 。

23
kedemingshi 在职认证  发表于 2022-6-2 21:30:26
A对(r,p)∈ R×(K) 如果r≥ vex(b*)(p) ,其中vex(b*) 唯一凸函数满足凸(b*) ≤ b*和vex(b*) ≥ 对于所有凸函数f,使得f≤ b*.对于每个γ∈ (I×J)定义γA∈ RKby(γA)k:=X(i,j)∈I×Jγ(I,J)Ak(I,J),并同样定义γB。初始概率pis的联合计划(1)概率V的有限子集 (K) 使得v的凸包包含每个v的初始概率p,(2)∈ V aγV∈ (I×J),(3)对于某些有限集合T 与集合V具有双射关系的Inof信号和与状态相关的an选择∈ 由播放器One执行,信号s∈ T根据Bayes规则,表示集合K上的条件概率等于V中对应的成员。(4) 如果选择的信号s对应于v∈ 五、玩家之间达成协议,在游戏的其余部分玩一对确定的动作序列((i,j),(i,j),…)这样,在限制分布γ时,可以获得,(5)在一名球员不遵守商定的行动顺序的情况下,两名球员的惩罚策略。Aumann和Maschler证明,如果存在一个单独的理性y,联合计划描述了未贴现博弈的均衡∈ Rk每v∈ V以下情况成立:(1)(γvB)·V≥ vex(b*)(v) ,(2)k∈ K(γvA)K=如果vk>0,(3)k∈ K(γvA)K≤ ykif vk=0。如有必要,玩家一将根据玩家二的策略受到惩罚,即每k∈ K玩家1被限制为不超过yk。球员二的这种能力是基于D.Bla ckwell(1956)的一个定理。对玩家二的惩罚集中在所采取的行动和玩家一选择的策略所隐含的自然状态的条件概率上。对两名球员的处罚在质量上存在差异。

24
何人来此 在职认证  发表于 2022-6-2 21:30:29
对玩家一的惩罚是绝对的,每个州的惩罚数量是同时确定的。玩家二的惩罚与自然状态的条件概率分布有关。根据预期计算报酬的需要给予了有效的惩罚。联合计划均衡的均衡收益是一对(x,y)∈ RK×RK每k∈ K值xkis是第一个参与者在K状态下的平均极限预期值,yk是第二个参与者在K状态下的平均极限预期值。请注意,从联合计划的结构中可以看出,这些值定义得很好。Hart(1985)证明了if(x,y),(x,y)∈ RK×RK都是两个不同的jo int plan平衡的平衡结果,对应于状态上相同的初始概率分布,然后每0≤ λ ≤ 1存在一个博弈均衡,该均衡可提供λ(x,y)+(1)的预期收益-λ) (x,y)。玩家可以通过联合控制策略来完成这一点,玩家可以在独立随机行为的初始阶段选择一个或另一个联合计划均衡。参见Aumann和Maschler(19 95),了解jo intly控制彩票的解释。现在我们应用定理3来证明下面的定理。定理4。内曼的上述问题得到了肯定的回答,这意味着每个内曼博弈都有一个均衡。证明:我们必须定义截断的博弈树,即混合策略空间, 该部分位于该树的端点上,每个C的连续向量∈ Q∧ Q=Q,支付函数ge,如果玩家i=1,2,以及当a(σ,τ)时选择的连续支付∈ 表示将以零概率达到相应的C。内曼博弈的前n个阶段定义了截断博弈树,其中E:=K×(I×J)表示终点。

25
何人来此 在职认证  发表于 2022-6-2 21:30:32
截短的游戏树有2n+1个游戏级别,第一个级别是自然选择,第二个级别是玩家一和玩家二选择动作的交替。第一个搬家的是大自然,选择一些k∈ K、 在自然选择之后,玩家一有一个由| K | differentsingleton组成的分区,表示对自然选择的完全了解。接下来是玩家二的一个动作,对于这个动作,玩家二在游戏的这个阶段只有一个分区成员,这意味着玩家二没有任何信息可以作为选择动作的基础。对于每一个m<n,在第m阶段结束时(意味着已经完成了2m+1个动作,m由两个玩家一个和两个以及第一个玩家自然完成),玩家的角色由K×(I×J)m组成,用于确定玩家一个的m+第一个动作,然后是由(I×J)m的不同成员定义的玩家2的分区元素(以确定其m+第一个动作)(意味着玩家2看到了第一层的第一个m动作,但没有看到m+1第一个动作)。PlayerOne的分区Qon E由| K |·······················································。第二个玩家的分区Qon E由所有x的形式为K×{x}的大小| K |的集合组成∈ (I×J)n.分区Q=Q∧ 定义公共知识与定义第二个玩家对应的分区相同。每个C之间都有一对一的对应关系∈ Q和两个玩家的每个动作序列(i,j,…,in,jn)。设Sand分别是player1和PlayerTwo的纯决策函数集。截断对策树的混合策略空间 := (S) ×(S) 。

26
mingdashike22 在职认证  发表于 2022-6-2 21:30:35
同样,整个比赛中的一对行为策略相当于 然后是第n阶段之后各阶段的收集行为策略。(σ,τ)的每个选择∈  结合序列i,j,il,jlof以正概率采取的行动通过Bayes规则在C上产生条件概率。如上所述,序列i,j,il,jl唯一地定义了Q和Pσ中的一个成员C,τ(·| C)是条件概率,因此我们是否将其视为集合C上的分布{(k,i,j,…,in,jn)| k并不重要∈ K} 或在集合K本身上。注意,对于e=(k,i,j,…,in,jn),概率Pσ,τ(e)是k选择概率的乘积∈ K、 σ和τ分别给出了参与人1和参与人2的相应行为响应概率。由于τ引起的第二层作用的概率不依赖于k∈ 我们得到了(*) 如果为σ∈ (S) 和τ,τ′∈ (S) 还有一些C∈ Q Pσ,τ(C)和Pσ,τ′(C)都是非零的,那么条件概率Pσ,τ(·| C)和Pσ,τ′(·| C)是相等的。我们定义了FC:(C)→ RC×{1,2}使得对于每一个p∈ (C) setFC(p)是对应于初始概率分布的联合计划平衡的对流(C) 。对于每个e∈ E、 对应于历史h=(k,i,i,…,in,jn)∈ Hn,也是一些C∈ Q、 和一些延拓向量v∈ RC×{1,2},定义支付,i(ve,i)到befi(h)+(1- λi)ve,i.现在考虑(σ,τ)的情况,使得someC上的条件概率是不确定的。如果不存在τ,使得使用(σ,τ)集C以正概率到达,则可以为任何q任意选择一个连续payoff FC(q)。

27
大多数88 在职认证  发表于 2022-6-2 21:30:38
如果存在一些τ,使得集合C以(σ,τ)的正概率到达,则对于由(σ,τ)定义的条件概率q,让连续支付为FC(q)中的任何一个。请注意(*),所有这些τ定义了相同的条件概率。要应用定理3,我们需要知道定义的FCso是u.s.c.,非空,凸值。关于Simon、Spie˙z和Toru'nczyk(1995)提出的传统的完全重复的未贴现博弈,概率单纯形中的每个概率都存在联合规划均衡(K) 定义它们的等式和不等式条件意味着它们是上半连续的,作为一种对应关系(确实满足更一般的“跨越”条件,Simon、Spie˙z和Toru'nczyk(2002))。Hart(1985)认为,均衡收益是通过将联合计划均衡收益转化为与任何固定概率p对应的收益而产生的∈ (K) 。由于Payoff的向量空间是有限维的,因此上半连续对应的逐点凸也是成对半连续的。根据库恩定理(1953年),我们可以等效地考虑前n个阶段的混合策略以及随后阶段的行为策略。从定理3可以看出,在 = (S) ×(S) 在满足定理3结果的前n个阶段。我们将σ和τ与对应的剩余阶段的行为策略相结合,对于每个C∈ Q、 从定理3得到的FC(p)中的平衡支付。在σ和τ的定义中,只要集合C∈ 通过这些策略,Q应该具有正概率,任何一方都无法检测到另一方的偏差。此外,任何一方在第一阶段的行动都不能改变任何C上的条件概率∈ Q

28
何人来此 在职认证  发表于 2022-6-2 21:30:41
这是因为双方采取的行动确定了C∈ 更新条件概率的唯一方法是通过观察播放的动作。改变策略只能导致C∈ 达到Q,但不是与任何固定C相关的条件概率∈ Q、 我们首先考虑第n个阶段之后发生的事情,然后考虑第二个参与者的报酬。由于在所有情况下都定义了持续支付的方式,并且由于第一个参与者坚持其规定的策略,因此,无论C∈ Q为正概率,用于确定FC(Q)中持续支付的Q是由前n个播放阶段确定的状态的条件概率。由于他在第n阶段后的规定行为是未折现的Aumann-Maschler博弈的均衡,其在自然状态e上的分布是条件概率q,因此偏差没有优势。对于玩家一,无论选择哪个状态,以及状态上相应的条件概率q是什么(正如玩家二所理解的),玩家一都会通过规定的行为策略获得相应的继续支付,而根据Blackwell(1956)的说法,无论选择哪个状态,都无法获得更好的支付。定义近视均衡的平等和不平等,加上在前n阶段后缺乏偏离动机,消除了任何一方在前n阶段偏离的动机。

29
mingdashike22 在职认证  发表于 2022-6-2 21:30:45
放弃完美监控的条件,我们怀疑只要玩家一有能力发送不同的非公开信号,就可以直接证明平衡的存在,西蒙、斯皮兹和托鲁恩奇克(2002)中描述的同样有效的条件平衡。对于定理3的应用,最初n个阶段的支付不必与以下未贴现博弈的支付有任何关联。前n个阶段与后几阶段的唯一相关性是状态K上的诱导概率分布。因此,我们可以引入两组支付,一组用于序列为λi,λi,…的折扣博弈。对于两个玩家,i=1,2,以及另一组未贴现游戏的支付。任意组合的支付对将允许每一个大于0的支付平衡(通过从任意多个初始阶段中定义截断的配子树)。但是0-平衡呢?在这两场比赛中的一场比赛中获得好的回报,无论是未折扣还是打折,都会分散你在另一场比赛中获得好回报的注意力。即使未贴现和折扣贬值的支付矩阵相同(与内曼游戏一样),执行联合交易来简化支付也会分散打折游戏的注意力。因此,为了证明平衡点,需要将定理2扩展到Simon、Spie˙z和Toru'nczyk(2002)的“跨越性质”,而不是更简单的凸值性质。然而,我们还必须证明,博弈树截短的有限序列中的参与者的均衡行为适用于未贴现的遗传算法。

30
nandehutu2022 在职认证  发表于 2022-6-2 21:30:49
目前,我们不知道是否有可能将均衡存在性扩展到存在有限贴现的奈曼博弈。虽然该定理可以提供关于复合对策均衡的有力结果,但必须确保给定的连续性报酬得到连续性对策均衡的支持。如果一方给顶层二方提供了玩家一方所不具备的一些非常微小的信息,那么在不完全信息的最终再生博弈中可能会缺乏均衡;Sorin andZamir(1985)中的“一方半信息不完整”游戏。正是因为定理的连续支付是由集合C t上的分布决定的,这是众所周知的,但玩家可能知道的比这更多,并且选择不接受任何由这些常识决定的支付方案。在应用于内曼问题时,一个已建立的关于一方不完全信息博弈均衡的理论避免了这个问题。事实上,即使在特定阶段的监测不完善,在某些情况下,平衡所需的“个人理性”条件也可能存在问题(Stapenhorst(2016))。不让这种困难减损定理的力量的愿望,是在不必进行持续博弈的情况下制定定理的另一个原因。5其他示例和一个应用程序虽然它是为了理解未处理博弈的纳什均衡而开发的,但近视均衡的概念独立于这些博弈。请看以下基于2×2矩阵A的简单示例=1.-1.-1 1用两个参与者和两个动作来表示传统的零和匹配便士游戏。从这个简单的游戏中,按以下方式创建一个非零和游戏。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-31 18:01