楼主: nandehutu2022
1859 60

[量化金融] 非近视代理是否会发生信息级联? [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-6-14 16:06:45
玩家n在时间t观察hctand,并采取行动ant=γnt(xn),其中γnt:X→ An(bnt,nt)是从她的私人信息到她的行动的部分功能。这些部分函数是通过somepolicyψnt:Hct生成的→ {X→ An}n∈ 在hctand上操作的N(10)返回从xnto到动作ant的映射,因此γnt=ψnt[hct],ant=ψnt[hct](xn)。上述分解是任何函数Hct×X→ Anis等效于功能Hct→ {X→ An}。在第一种形式中,策略是公共历史hct和私人信号xn的直接函数,因此ant=snt(hct,xn)。在第二种形式中,该策略被分解为两个步骤:在第一步中,公共历史生成一个部分函数γnt=ψnt【hct】,在第二步中,该部分函数在私有信号处进行评估,以生成最终动作ant=γnt(xn)=ψnt【hct】(xn)。请注意,只有四种可能的确定性伽马函数γnt:等待任何xn(表示为0)、购买任何xn(表示为1)、根据xn购买(表示为I)和根据-xn。最后一个明显由其他三个中的一个主导,因此从未考虑过。因此,我们剩下三种可能的部分策略,即γnt∈ {0,1,I}。此外,由于每个非代理玩家基本上都在等待(即,为n 6=nt玩γnt=0),因此在下文中,我们将删除上标tn,只将代理玩家的部分函数称为γt=ψt[hct]。我们在结束本节时指出,玩家的策略,尤其是他们的部分功能,对向社区其他人披露私人信息负有责任。事实上,如果一个玩家按照γt=I玩游戏,那么她会通过她的动作蚂蚁透露她的私人信息。相反,如果她按照γt=0或1玩,她的私人信息不会被泄露。三、

12
kedemingshi 在职认证  发表于 2022-6-14 16:06:49
结构化完美贝叶斯均衡的特征。完美贝叶斯均衡的主要目的是研究在上述环境中是否发生信息级联。信息级联被定义为游戏的一种状态,学习停止,因为动作不再显示新信息。为此,我们首先要研究这个博弈的均衡策略。由于这是一个信息不对称的动态博弈,一个合适的解决方案概念是PBE【29】,定义如下。定义2。具有纯策略的PBE是一对*, u*) 战略文件的*= (s)*n) n个∈N、 o信念文件序列u*= (u*n) n个∈N、 这样,顺序合理性保持不变,即,对于每个N∈ N、 t型≥ 0和hnt∈ Hnt和各战略snRns*nt:∞, s*-nt:∞, u*nt,hnt≥ 注册护士snt:∞, s*-nt:∞, u*nt,hnt, (11) 当Ps时,信念满足贝叶斯更新*(hnt | hnt-1) > 0.在本文中,我们使用方括号来表示生成函数的映射。2020年3月10日DRAFTWe指出,应对所有信息集定义策略和信念,即使是在均衡策略(非均衡路径)下发生概率为零的信息集。在我们的环境中,存在公共和私人的非均衡路径。公共非均衡路径(即所有参与者都可以确认存在偏离均衡的路径)是蚂蚁-1吨-1=0,但s*nt公司-1(xnt-1,hct-1) =1,对于allxnt-1或类似地,ant-1吨-1=1,但s*nt公司-1(xnt-1,hct-1) =0,对于所有xnt-在这两种情况下,我们都有*(hnt | hnt-1) =0,我们对信念更新没有限制。如引理1所示,在这两种情况下,信念都不会因非均衡行为而更新,因此即使行为不符合均衡策略,我们也选择不更新它们。

13
mingdashike22 在职认证  发表于 2022-6-14 16:06:53
但是,如果Ps*(hnt | hnt-1) > 0. 私人非均衡路径(即,如果发生偏离均衡的情况,除代理玩家以外的所有玩家都无法确认的路径)是*nt公司-1(xnt-1=1,hct-1) =1和s*nt公司-1(xnt-1= -1,hct-1) =0(扮演γntt=I),扮演者扮演蚂蚁-1吨-1=1,带有专用信号xnt-1= -1或扮演蚂蚁-1吨-1=0,带有专用信号xnt-1=1,她还没有透露她的私人信息。在这种情况下,除了nt以外,没有其他玩家-1意识到偏差,因为这两种操作都是可能的。我们对玩家nt施加限制-尽管其他玩家更新了他们对xnt的信念,但1的信念在她偏离时不会更新-因此,直觉上,玩家无法通过自己的行为学到更多东西,但她可以诱导其他人产生不同的信念。人们可以参考[29]、[32]来证明这种对非平衡信念的约束。具体而言,PBE的非均衡信念所构成的条件之一被称为“不发你不知道的信号”[32,第332页]。这种情况表明,如果考虑两个不同的动作角色,其中一个特定的玩家的动作是相同的,那么对于这两个动作角色,关于该玩家类型的信念应该同样更新。这意味着在我们的环境中,代理玩家不应该因为其他玩家不在玩而改变她对任何其他玩家的私人信号的信念。另一方面,了解v是通过玩家的私人信号进行的。如果对他人私人信号的信念没有改变,那么对v的信念也不应该改变。

14
kedemingshi 在职认证  发表于 2022-6-14 16:06:56
因此,无论她在玩什么游戏,无论她是否偏离了方向,演员都不应该改变她对v或其他人的私人信号的信念。B、 结构化PBEWe的特征描述现在提出了一种描述sPBE的方法,其中扮演者NTT的策略仅通过变量V、X(以及变量Bt)的共同信念取决于共同历史-1). 特别是,我们定义了共同信念πt∈ PV×XN式中πt(x,v):=Ps(x=x,v=v | a0:t-1,b0:t-1,n0:t)=Pψ(X=X,V=V | a0:t-1,b0:t-1,n0:t,γ0:t-1). 我们首先表明,信念πtca可以仅使用公共信息进行更新,并且更新是ψ独立的。引理1。可以根据πt+1=F(πt,γt,antt,nt)更新信念πtca。特别是,如果γt6=I,则不会更新Belief。2020年3月10日绘图证明:通过简单应用贝叶斯规则,我们得到πt+1(x,v)=Ps(x,v | a0:t,b0:t,n0:t+1)(12a)=Pψ(x,v | a0:t,b0:t,n0:t+1,γ0:t)(12b)=Pψ(x,v | a0:t,b0:t)-1,n0:t,γ0:t)(12c)=Pψ(x,v,at | a0:t-1,b0:t-1,n0:t,γ0:t)Pψ(在| a0:t-1,b0:t-1,n0:t,γ0:t)(12d)=Pψ(在| x,v,a0:t-1,b0:t-1,n0:t,γ0:t)Pψ(x,v | a0:t-1,b0:t-1,n0:t,γ0:t)P(在| a0:t-1,b0:t-1,n0:t,γ0:t)(12e)=γt(xnt)(antt)πt(x,v)Px,vγt(xnt)(antt)πt(x,v)。(12f)注意,如果γ是一个常数函数(即γt6=i),则数量1γt(xnt)(antt)从上述表达式的分子和分母中抵消,从而导致πt+1=πt。此外,每当分母为零(非平衡路径)时,我们设置πt+1=πt。注意,更新方程对γ的依赖性是我们模型中“信号”的表现。

15
大多数88 在职认证  发表于 2022-6-14 16:06:59
当均衡策略为γt=I时,代理玩家的行为揭示了她的私人信息,并改变了其他玩家对V和X的信念。现在,均衡路径上V上的玩家的私人信念是通过将公众信念调节到V上玩家的私人信号Xn来获得的。更具体地说,玩家n对平衡路径的私人信念是πpr(v | xn)=πt(xn,v)πt(xn),其中πt(xn,v)和πt(xn)是πt(x,v)的边际信念。为了描述供应平衡路径的私人信念,我们需要定义一个辅助变量,该变量将在本文的后续发展中使用。定义3。将玩家n在时间t之前的显示信息定义为变量xnt∈ {0, -1,1}表示▄xnt=0表示玩家尚未透露其私人信息,而▄xnt=±1表示玩家已透露其私人信号,数值如图所示。请注意,非代理玩家的数量Xntremainunchanged,而代理玩家的数量是递归更新的,asexnt=f(xnt-1,γt,ant)=2ant公司- 1γt=I,~xnt-1=0exnt-1o。w、 ,(13),初始条件exn=0。请注意,exntis是▄xn0:t的函数-1,a0:tand n0:t,或γ0:t,a0:tandn0:t的等效值。我们使用符号▄xt=▄x-ntt▄xntt=▄F(▄xt-1,γt,antt,nt)=x-ntt公司-1f(¢xntt)-1,γt,antt)总结整个向量的递归更新▄xt=(▄xt,…,▄xN)。此外,请注意,可以使用下面的信念πtas来推导▄xNt的值。对于k,如果πt(xn)=1k(xn)∈ {-1,1},然后▄xnt=k。否则,▄xnt=0。如定义2所述,在定义信念时,我们应该注意的非均衡路径是玩家自己偏离并导致他人对其私人信号产生错误信念的路径。

16
kedemingshi 在职认证  发表于 2022-6-14 16:07:07
然而,该玩家不能有一个与其私人信号不一致的信念,因此,她不能维持2020年3月10日对v的公众信念。因此,我们坚持认为,每个玩家的私人信念是通过取消她透露的信息,然后包括该玩家的私人信号而产生的。其形式化如下。πprt(v=1 | xn)πprt(v=-1 | xn)=πt(v=1)πt(v=-1)1.- 聚丙烯-xn+xn。(14) 直觉上,上述等式表明,对于一个尚未透露自己信息的玩家(xn=0),她对V的隐私是由私人因素(1)放大的公共可能性-pp)xn。然而,如果她已经披露了自己的信息,并且处于平衡状态xn=xn,那么私人信仰和公共信仰是相同的,因为私人信息已经在披露发生的早期阶段纳入了公共信仰。最后,如果她已经透露了她的信息,并且她处于失衡状态xn=-然后,她的个人可能性必须通过因素(1)纠正错误的公众信仰-pp)-x然后用真因子(1)进行放大-pp)xn。我们想描述代理玩家antt=ψt[hct](xnt)的平衡策略,对于该策略,不断增长的共同历史hct=(a0:t-1,n0:t)总结为时不变量(nt,πt,bt)∈N×P(V×XN)×{0,1}N,即antt=θ[nt,πt,bt](xnt)形式的平衡策略。换句话说,weseek平衡策略,其中部分函数的形式为γt=θ[nt,πt,bt]。我们考虑以下表征平衡映射θ[·]的FPE。固定点方程1。

17
何人来此 在职认证  发表于 2022-6-14 16:07:12
对于每n∈ N、 π∈ PV×XN, b∈ {0,1}我们计算γ*= θ[n,π,b]如下o如果bn=1,则γ*= 0.o如果bn=0,则γ*是以下方程组的解,xn公司∈ Xγ*(xn)=参数最大值Xvvπpr(v | xn){z}1=“购买”,δNNXn=1Vn(xn,n,F(π,γ*, 0,n),b){z}0=“不买”(15a)其中,该值适用于所有m∈ N满足度vm(xm,N,π,b)=(15b)0,bm=1δNPNn=1Vm(xm,n,F(π,γ*, 0,m),b),bm=0,n=m,γ*(xm)=0Pvvπpr(v | xm),bm=0,n=m,γ*(xm)=1δNPNn=1E[Vm(xm,n,F(π,γ*, γ*(Xn),n),b-nBn)],bm=0,n 6=m,(15c),其中(15c)中的期望值与RVs x和Bn有关(Xn=Xn,Bn=Bn | xm,n,π,b)=PBn=Bn | Xn=Xn,xm,n,π,bP(Xn=Xn | xm,n,π,b),(15d),其中P(Bn=1 | Xn=Xn,xm,n,π,b)=1,如果bn=1或γ*(xn)=10,否则,(15e)2020年3月10日DRAFTandP(xn=xn | xm,n,π,b)=X▄vπ(xn | v)πpr(▄v | xm)。(15楼)一旦通过FPE 1找到映射θ[·],则通过以下正向递归生成sPBE策略和信念。1) 在时间t=0时初始化,u*[φ] (v,x):=Q(v)NYi=1Q(xi | v)。(16a)2)对于t=0,1,2。,n∈ N、 hct+1∈ Hct+1,xn∈ Xs型*nt(hnt):=θ[nt,u*t【hct】,bt-1] (xn)n=nt0 o.w.(16b)和u*t+1hct+1:= F(u*t【hct】,θ【nt,u】*t【hct】,bt-1] ,antt,nt)。(16c)个人信仰u*n由u生成*tasu*nt公司x个-n、 五= u*t(x-n | v)u*nt(v | xn)(16d),其中u*nt(v=1 | xn)u*nt(v=-1 | xn)=u*t(v=1)u*t(v=-1)1.- 聚丙烯-xn+xn。(16e)以下定理确定上述构造生成sPBE。定理1。每当FPE 1有解决方案时,(16)中所述的正向构造就会生成PBE。证明:见附录A。请注意,FPE 1,尤其是(15a)中的FPE类似于有限水平停止时间问题中的动态规划FPE。

18
大多数88 在职认证  发表于 2022-6-14 16:07:15
然而,有一个显著的区别:虽然玩家n正在决定她的策略,这将导致通过最大化购买和等待之间的回报来采取行动,但我们使用均衡γ*在信念π的更新函数中。定理1的证明说明了这种扭曲的原因。这个证明表明,只有当其他所有玩家都按照γ进行游戏时,玩家n才会面临MDP*, 而且(这是重要的一点)如果π的更新是根据平衡策略γ进行的*. 因此,如果这两个要求成立,参与者n的最佳响应将为我们提供PBE策略γ*. 因此,我们有一个包含γ的FPE*在方程式的左侧和右侧。换句话说,γ*只有当信念更新πt+1=F(πt,γ)是最佳反应时,才是平衡策略*t、 antt,nt)使用均衡策略进行评估。(15c)中表达式的直观解释如下。第一个等式描述了玩家已经购买产品的情况,因此没有额外的预期奖励。第二个等式是指代理玩家选择等待的情况,因此在t+1时对所有代理玩家的未来奖励进行平均,并根据均衡策略γ更新信念*操作0。2020年3月10日第三个草拟公式是指演员选择购买产品,从而获得其个人信仰估计的预期价值的情况。

19
何人来此 在职认证  发表于 2022-6-14 16:07:18
最后,最后一个等式指的是那些在下一阶段通过对所有可能的代理玩家的期望来评估其未来奖励的非代理玩家,以及当前代理玩家的私人信息以及她是否会购买产品。注意,FPE 1中评估的值函数是信念π的函数∈ PV×XN, i、 例如,集V×XNof大小2N+1上的概率质量函数,由于值函数域的维数有限,使得该特征不足以进行分析甚至数值评估。在下一节中,我们将说明,由于问题的结构,这些方程可以大大简化。特别是,我们首先表明,这些值函数的域可以简化为一个有限集。然后,我们证明了额外的简化是可能的。事实上,FPE的维数是多项式wrt N。作为该过程的最后一步,我们表明FPE的维数是二次wrt N。四、 通过有限维FP计算PBE在本节中,我们利用问题的结构来总结πtinto fi有限维对象的信念。我们将每个参与者的信念分解为未知变量x-nand v并显示每个部分都可以递归更新。此外,这些部分可以归纳为一个整数向量。这两个事实结合在一起,使得FPE 1大大简化,因此相应的值函数具有域Rdwith有限,因此可用于数值计算和分析。当然,玩家只对之前的动作感兴趣,因为它们携带了有关产品的信息。然而,并不是每一个动作都会透露扮演者的私人信息。要做到这一点,玩家采取的行动必须由她的私人信息决定。

20
能者818 在职认证  发表于 2022-6-14 16:07:21
因此,EXNTS的值携带此信息并不奇怪。下面的引理表明,公共信念分解为v上的信念和x上的信念。具体而言,它证明了私有信息变量x,给定v,hct条件独立。此外,它表明,共同的信念可以用Def中定义的术语来表达。引理2。公众信念πt(x,v)=P(x=x,v=v | hct)可以分解为πt(x,v)=πt(v)NYm=1πt(xm | v)(17),其中πt(v),P(v=v | hct)和πt(xm | v),P(xm=xm | v,hct)。此外,πt(xm | v)=exmt(xm),exmt6=0Q(xm | v),exmt=0(18),对v的信念可以更新为πt+1(1)πt+1(-1) =πt(1)πt(-1)×q2antt-1,γt=I和▄xntt=01,o.w.,(19)2020年3月10日绘图,q=1-pp.最后,对V的信念可以显式表示为πt(1)πt(-1) =qPnexnt。(20) 证明:见附录B。利用上述信念的结构结果,我们可以简化FPE 1。由此产生的简化FPE如FPE 2所示。不动点方程2(有限维)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 12:32