楼主: nandehutu2022
1852 60

[量化金融] 非近视代理是否会发生信息级联? [推广有奖]

31
可人4 在职认证  发表于 2022-6-14 16:07:57
实际上,取增长速度比√N(例如,MN=对数N)。然后,当级联发生时,只有不到MNplayers显示了他们的信息。这意味着在级联发生之前(对于大N),已经发现了关于V的极少量可用信息。这对社区来说确实是一个灾难性的结果(当级联操作与产品质量不一致时)。B、 在δ=1或足够大δ<1的情况下,在本小节中,我们研究固定N和δ=1或足够大δ<1的信息级联。我们将这些病例分别称为完全有耐心和充分有耐心的参与者。如图所示,在此设置中会出现非常令人惊讶的结果。δ=1的解决方案将完全避免V=-1和足够高的δ<1的解决方案将避免V=-1(所谓“有害”是指不良的信息级联,在级联时,整个私有信息中只有一小部分在网络中传播)。我们首先研究δ=1且足够大δ<1的FPE 3的解决方案。定理7。以下策略文件是FPE 3的解决方案,o对于δ=1,γ*= φ[r,y,w]=0,y≤ -2I,y≥ -1,w<N1,y≥ 1,w=N,r=1I,y∈ {0, -1} ,w=N,r=1(35a)o对于足够大的δ<1(取决于N和游戏的其他参数),γ*= φ[r,y,w]=0,y≤ -2I,y≥ -1,y+w<NI,y=1,w=N- 1,r=0I,y=0,w=N,r=11,y≥ 2,y+w≥ N1,y=1,w≥ N- 1,r=1(35b)2020年3月10日绘图证明:见附录I定理7中给出的策略文件分别在图2和图3中描述了N=11和δ=1以及大值δ<1。注意,策略γ*= I(用01表示)扩展到所有状态≥ -δ=1时,w<N。图2:。

32
何人来此 在职认证  发表于 2022-6-14 16:08:00
N=11和δ=1的平衡策略。“00”、“01”和“11”分别表示策略0、I和1。图3:。N=11且δ<1足够大的平衡策略。“00”、“01”和“11”分别表示策略0、I和1。利用定理7,我们接下来论证了V=-1和δ=1。回想一下,当玩家有私人信号,但不根据他们的信号行事时,即他们玩γ时,就会发生信息级联*= φ[0,y,w]=1或γ*= φ【0,y,w】=0。请注意,这一定义基于尚未披露的参与者的策略,即r=0,而不是r=1。2020年3月10日,当V=1和γ时,出现了错误的信息级联*= φ[0,y,w]=0或V=-1和γ*= φ【0,y,w】=1。这两种情况是应该避免的。此外,在研究信息级联时,我们应该考虑层的数量w,当发生不良信息级联时,这些层已经暴露出来,因为这个数字显示了系统中已经传播的信息量。在不良信息层叠时已经透露的玩家数量越多,这种现象的危害就越小。接下来的两个定理形式化了我们的结果。定理8。对于δ=1,存在一个sPBE,在v=-1、证明:考虑定理7中δ=1的策略证明(如图2所示)。没有策略γ*=φ[r=0,y,w]=1。这意味着对于V=-1、此战略文件不会出现不好的信息级联。尽管定理8指出,对于V=-1,由于策略γ,它们总是在V=1时以正概率发生*= φ[r=0,y,w]=0,为y播放≤ -2和所有w.定理9。

33
能者818 在职认证  发表于 2022-6-14 16:08:08
对于足够大的δ<1,存在一个sPBE,V=-1只有当至少一半的玩家透露了他们的私人信息时,才会发生这种情况。证明:假设δ<1足够大,以至于定理7第二部分(如图3所示)的策略文件是sPBE。该战略文件包括战略γ*= φ[0,y,w]=1表示y≥ 2安迪+w≥ N(图3中的黄色单元格)。这意味着V=-1、只有在≥ 2和y+w≥ N、 这反过来意味着,当至少w=N时,会发生错误的信息级联。因为y的初始值为0,并且在达到其中一个状态之前使用的策略是y≥ 2和y+w≥ N、 都是γ*= φ[r,y,w]=I,w的值等于已经透露的玩家数量。因此,只有当至少一半的玩家透露了他们的私人信息时,才会发生不良级联。在这一点上,我们注意到,定理9中δ<1的值取决于博弈的参数,如N。这种依赖性在定理7的证明中明确显示出来。根据定理9,至少有一半的玩家在级联时透露了他们的信息。然而,请注意,δ的值可能接近1,asN接近于1。八、数值结果在本节中,我们给出了FPE 3解的数值结果。结果如下。首先,使用迭代算法来求解FPE,这与马尔可夫决策过程求解中使用的值迭代算法非常相似。迭代过程一直运行到值函数数值收敛。为了毫无疑问地验证该解决方案是平衡的,接下来进行了第二步。

34
可人4 在职认证  发表于 2022-6-14 16:08:12
第二步,确定通过该迭代过程获得的平衡策略,并用所有值函数表示未知量的线性方程组。使用有限精度算法(通过rationalMarch 10,2020 DRAFTnumber表示)求解该系统,并获得与该策略文件相对应的精确值函数。最后一步是检查获得的值函数是否满足顺序合理性,即是否满足(26)中的所有不等式。下面我们给出了N=11、p=0.1和δ的三个不同值的结果,即δ=0、δ=0.999和δ=1。第一种情况(δ=0)本质上是近视球员的情况,图4中的结果证实了[2]中的结果。无论w值多少,尚未透露信息的玩家总是会选择y≤ -2、始终为y购买≥ 2并透露他们的信息-1.≤ y≤ 请注意,对于y=1,一个非暴露玩家在γ=I和γ=1之间是不相关的,对于y=-1、我们通过假设球员总是透露信息来解决平局。此外,对于y=0,一个已经透露的玩家在任何动作之间都是无关紧要的,我们通过假设她总是透露来解决这个模糊性。图4:。N=11,p=0.1,δ=0的平衡策略。“00”、“01”和“11”分别表示策略0、I和1。第二个案例(δ=0.999)研究了更多的患者参与者,结果如图5所示。毫不奇怪,玩家在做出购买决定之前愿意等待更多。事实上,对于w=2到w=5的值,并且相信产品质量为y=2,玩家不会承诺购买(即玩γ=1),但平衡策略是揭示她的信息(γ=i)。

35
大多数88 在职认证  发表于 2022-6-14 16:08:15
类似地,对于相信的产品质量y=2的玩家,已经透露了她的私人信息Xn=-1选择等待(γ=0)。第三个案例(δ=1)针对具体患者参与者进行研究,结果如图6所示。直觉表明,玩家在做出购买决定之前愿意等待更多时间。事实上,对于w=5,并且当可信产品质量为y=5时,玩家没有承诺购买(即玩γ=1),但均衡策略是披露她的信息(γ=i)。类似地,对于w=6且相信产品质量为y=4的玩家,其已披露其私人信息Xn=-1选择等待(γ=0)。很明显,随着w的增加和我们接近游戏的尾声,玩家变得更具攻击性,因为等待学习的信息越来越少,在w=N时,δ=0和δ=1的均衡策略是一致的。然而,就patientMarch 10而言,2020年绘图。N=11,p=0.1,δ=0.999的平衡策略。“00”、“01”和“11”分别表示策略0、I和1。玩家之间出现了一种更具合作性的平衡(参见图6中红三角所示的策略),玩家愿意通过透露自己的私人信息来帮助对方学习未知状态V。我们注意到,这些结果与定理7并不矛盾,因为该定理声称FPE存在特定解,但不存在唯一性。事实上,虽然这是δ=1的情况,但我们的数值算法收敛到(35b)中描述的平衡,也如图3所示。图6:。N=11,p=0.1,δ=1的平衡策略。“00”、“01”和“11”分别表示策略0、I和1。下一组图表显示了信息质量的影响。图7描绘了δ=0.999和p=0.4的情况下的平衡。

36
kedemingshi 在职认证  发表于 2022-6-14 16:08:18
这是一个比英菲格描述的更吵闹的私人观察。因此,均衡行为变得“更为温和”:玩家愿意等待更多时间并披露他们的信息,2020年3月10日,因为现在单个观察的质量比以前低。图7:。N=11,p=0.4,δ=0.999的平衡策略。“00”、“01”和“11”分别表示策略0、I和1。与之前的结果相比,最后一个图显示了两个不同V值、不同p值和更多用户N=21的不良级联概率。我们进一步根据级联发生时W的值对该概率进行分解。我们将此信息描述为累积的badcascade概率,其中W≤ w代表w∈ 图8中的{0,…,N}。从该图中可以明显看出,对于V=1和V=-当V=1时,情况更为严重,也就是说,当产品很好而玩家选择不购买时。这是由于平衡为γ=0的(y,w)值集与平衡为γ=1的(y,w)值集的不对称性造成的。九、 结论我们研究了非近视玩家的贝叶斯学习情景。我们的模型概括了最早报告信息级联的经典近视和顺序一次性场景。为了分析该场景中的信息级联,需要对动态游戏的PBE进行复杂的分析。通过引入结构化战略(structuredstrategies),我们构建了涉及有限域上定义的价值函数的FPE。通过进一步利用模型的结构,我们构建了具有值函数的FPE,这些值函数的大小仅在参与者数量N中呈二次增长,并且具有直观的解释。基于这些方程的可处理性,Wein研究了它们在两种情况下的解。

37
大多数88 在职认证  发表于 2022-6-14 16:08:21
第一个是固定δ<1且渐近大N。第二个是固定N和δ=1或渐近接近1。对于第一种情况,我们证明了informationalcascade最终发生的概率接近1。在这些信息级联中,只有一小部分信息被揭示出来,大N的可能性很高,这使得这些级联是无效的,并且是真正的病理结果。对于第二个政权,出现了一个非常令人惊讶的结果。当产品不好时,耐心的玩家可以完全避免不好的级联。此外,对于有足够耐心的玩家,当出现不良级联(针对不良产品)时,至少一半的玩家已经透露了他们的私人信息,即2020年3月10日DRAFTFig。8、N=21的不良级联概率,δ=0.999999,p∈ {0.1, 0.2, 0.3, 0.4}.这意味着这种行为不是病理结果。已开发FPE的数值解表明,玩家表现出的非近视行为比我们推广的近视情况要复杂得多。定理1的附录A假设:让我们假设除玩家n以外的所有玩家都按照γ进行游戏*t=θ[nt,πt,bt],即antt=γ*t(xnt)=θ[nt,πt,bt](xnt),对于所有的nt6=n。让我们进一步假设信念π的更新固定为πt+1=F(πt,γ*t、 antt,nt)=F(πt,θ[nt,πt,bt],antt,nt)=:Fθ(πt,nt,antt,bt)。我们将证明游戏者n所面临的优化问题可以表述为一个马尔可夫决策过程(MDP)。为此,我们将动态系统的状态、行为和瞬时回报定义如下。系统状态定义为asst=(xn,nt,πt,bt)。

38
kedemingshi 在职认证  发表于 2022-6-14 16:08:25
此外,动作空间根据方程式(7)定义,其中在每次t时,玩家都会接受动作蚂蚁∈ An(bnt,nt)并收到即时奖励R(st,ant)=antPvvπpr(v | xn)。我们首先证明了(st)是一个具有动作ant的受控马尔可夫过程,即P(st+1 | s1:t,an1:t)=P(st+1 | st,ant)。(36)事实上,P(st+1 | s1:t,an1:t)=P(\'xn,nt+1,πt+1,bt+1 | xn,n1:t,π1:t,b1:t,an1:t)(37a)=1xn(\'xn)NQb(bt+1 | xn,nt,πt,bt,ant)Qπ(πt+1 | xn,nt,πt,bt,ant),(37b)2020年3月10日通过qb(bt+1 | xn,nt,πt,bt,ant)=Qbn(bnt+1 | bnt,ant)NYm=1,m6=NQb定义-n(bmt+1 | xn,nt,πt,bt)(38a),带qbn(bnt+1=1 | bnt,ant)=1,bnt=1,或ant=10,否则(38b)Qb-n(bmt+1=1 | xn,nt,πt,bt)=m(nt)Pxmπpr(xm | xn)1θ[nt,πt,bt](xm)(1),bmt=01,bmt=1(38c)和qπ(πt+1 | xn,nt,πt,bt,ant)=Pxntπpr(xnt | xn)1Fθ(πt,nt,θ[nt,πt,bt](xnt,bt)(πt+1),nt6=nFθ(πt,nt,ant,bt)(πt+1),nt=n.(38d)正是上述等式揭示了为什么必须固定信念更新才能证明玩家面临MDP。如果情况并非如此,则上述方程将要求通过πt+1=F(πt,γt,antt,nt)形式的表达式更新信念,这将要求在nt=n的情况下,将部分函数γt包含在动作空间中,而不是仅包含动作ant。我们现在已经证明了(36)。因此,状态过程(st)与奖励R(st,ant)形成了一个有限的水平MDP,因此可以从以下状态的FPE中得出最佳纯策略s=(xn,na,π,b),a*n=γ*(xn)=arg maxan∈An(bn,na)(anXvvπpr(v | xn)+δE[Vn(xn,na,π,B)| xn,na,π,B,An],(39a),其中na,π和B是下一状态元素的随机变量,期望值根据过渡核(38)。此外,Vn(xn,na,π,b)=maxan∈An(bn,na)(anXvvπ(v | xn)+δE[Vn(xn,na,π,B)| xn,na,π,B,An])。

39
nandehutu2022 在职认证  发表于 2022-6-14 16:08:28
(39b)接下来,我们需要证明上述FPE等同于FPE 1。我们首先表明Vn(xn,na,π,bn=1,b-n) =0对于所有xn,n,π,b-n、 根据(7)中定义的动作空间,如果bn=1,An(bn,na)={0}。这意味着该状态下的即时奖励为0。另一方面,根据(38)中b的过渡核,该状态以bn为单位吸收,这意味着对于所有未来状态,bn也为1。这将导致玩家n在所有即将到来的状态中获得0奖励,因此Vn(xn,na,π,bn=1,b-n) =0。上述情况意味着playern面临着停车时间问题。如果n是代理玩家(n=na),FPE(39)实际上是在购买和获得即时回报PVVπpr(v | xn)或等待和获得δE[Vn(xn,na,π,B)| xn,na,π,B,an]之间进行选择。根据转换核(38),δE[Vn(xn,Na,π,B)| xn,Na,π,B,an]=δNPNna=1Vn(xn,Na,F(π,γ*, 0,n),b)。因此,对于n=na,FPE(39)相当于(15a),前三种情况(15c)。此外,如果n不是扮演者(n 6=na),因为An(bn,na)={0},Vn(xn,na,π,b)=δE[Vn(xn,na,π,b)| xn,na,π,b,An]。2020年3月10日根据过渡核(38),δE[Vn(xn,Na,π,B)| xn,Na,π,B,an]=δNNXna=1EVn(xn,na,π,Bnab-na)| xn,na,π,b,an.从(38)中可以明显看出∏=F(π,γ*, γ*(Xna),na)a.s.,因此,Vn(xn,na,π,b)=δNNXna=1E{Vn(xn,na,F(π,γ*, γ*(Xna),na),Bnab-na)| xn,na,π,b,an},这是(15c)的第四种情况。证明的结论是,Bnain(38b)的转移核与(15d)的转移核相同。现在,通过(16)中的正向算法递归地跟踪每个信息集来构造sPBE是一项简单的任务(我们还使用了私有变量X。

40
大多数88 在职认证  发表于 2022-6-14 16:08:36
,XNare独立于V,这一事实将在引理2中得到确凿的证明)。附录B引理2的证明:我们用归纳法证明了这个引理。对于t=0,我们有π(x,v)=Ps(x,v | n)=Q(v)QNm=1Q(xm | v)。假设πt-1(x,v)=πt-1(v)QNm=1πt-1(xm | v)我们有πt(x,v)=Ps(x,v | a0:t-1,n0:t)(40a)=Ps(x,v,at-1,nt | a0:t-2,编号:t-1) Ps(在-1,nt | a0:t-2,编号:t-1) (40b)=(1/N)Ps(在-1 | x,v,a0:t-2,编号:t-1) Ps(x,v | a0:t-2,编号:t-1) Ps(在-1,nt | a0:t-2,编号:t-1) (40c)=(1/N)QNm=1γmt-1(xm)(金额-1)πt(x,v)Px,v(1/N)QNm=1γmt-1(xm)(金额-1)πt(x,v)(40d)=QNm=1γmt-1(xm)(金额-1)πt-1(v)QNm=1πt-1(xm | v)Px,vQNm=1γmt-1(xm)(金额-1)πt-1(v)QNm=1πt-1(xm | v)(40e)=QNm=1γmt-1(xm)(金额-1) πt-1(xm | v)πt-1(v)PvQNm=1Pxmγmt-1(xm)(金额-1) πt-1(xm | v)πt-1(v)。(40f)给定V和hctcan的X的条件分布现在可以写成πt(X | V)=QNm=1γmt-1(xm)(金额-1) πt-1(xm | v)PxQNm=1γmt-1(xm)(金额-1) πt-1(xm | v)(41a)=NYm=1γmt-1(xm)(金额-1) πt-1(xm | v)Pxmγmt-1(xm)(金额-1) πt-1(xm | v)(41b)=NYm=1πt(xm | v),(41c)2020年3月10日,完成归纳步骤,证明私有信息变量X,XNare conditionallyindependent给定v,hct,从而证明(17)。此外,(41c)提供了条件概率f的更新方程,即πt(xm | v)=γmt-1(xm)(金额-1) πt-1(xm | v)Pxmγmt-1(xm)(金额-1) πt-1(xm | v)(42a)=πt-1(xm | v),m 6=nt-1或γmt-16=Ixm+1(金额-1) ,m=nt-1和γmt-1=I.(42b)因此,如果玩家m在时间t之前尚未透露其信息,则πt(xm | v)=···=π(xm | v)=Q(xm | v)。或者,如果玩家m在时间t之前的某个时间点透露了她的信息,我们得到πt(xm | v)=xm(xm),从而证明(18)。现在,边缘化(40a)w.r.t。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 12:39