楼主: 大多数88
2256 71

[量化金融] Berk-Nash均衡:一个具有错误指定的代理建模框架 [推广有奖]

31
能者818 在职认证  发表于 2022-5-7 03:00:36
扰动博弈的Berk-Nash均衡的定义与定义1相似,唯一的区别是扰动博弈必须要求最优性。4.2学习基础我们假设一个受干扰的游戏,并假设玩家在每个t=0,1,2。。。,其中,时间-t状态和信号(ωt,st)以及扰动ξt分别从相同分布P和Pξ的每个周期中独立绘制。此外,每个玩家i都有一个先前的ui,完全支持她的(有限维)参数集Θi。在每个时段t结束时,每个玩家都使用贝叶斯规则和在过去所有时段获得的信息(她自己的信号、行动和后果)来更新信念。玩家认为他们面临着一个稳定的环境,目光短浅地最大化了当前时期的预期收益。允许(Θi)表示Θi上完全支持的概率分布集。莱比:(Θi)×Si×Xi×Yi→ (Θi)表示参与者i的贝叶斯算子:总之,我们将注意力限制在参数模型(即有限维参数空间)上,因为,否则,在正确指定的统计设置中,对于大多数先验和参数值7,贝叶斯更新不必收敛到真理(Freedman(1963)、Diaconis和Freedman(1986))。A. ΘBorel可测量和全部(ui、si、xi、yi)∈ (Θi)×Si×Xi×Yi,Bi(ui,Si,Xi,Yi)(A)='AQiθi(Yi | Si,Xi)ui(dθ)'Qiθi(Yi | Si,Xi)ui(dθ)。假设1很好地定义了贝叶斯更新。因为玩家相信他们面对的是一个带有i.i.d.扰动的静止环境,所以限制玩家i在时间t的行为(uit,sit,ξit)不失普遍性。定义5。参与方i的策略是一系列函数φi=(φit)t,其中φit:(Θi)×Si×Ξi→ xi如果φ为,则策略φ为最优∈ ψ对于所有t。

32
可人4 在职认证  发表于 2022-5-7 03:00:39
政策文件φ=(φi)i∈如果φIis对所有i都是最优的,那么Iis是最优的∈ I.让H (S×Ξ×X×Y)∞表示一组历史,其中任何历史h=(s,ξ,x,y,…,st,ξt,xt,yt…)∈ H满足了可行性限制:尽管如此∈ 一、 yit=fi(xit,x-它,ω)对于某些ω∈ 补充(pOhm|Si(·| sit))表示所有t。设Pu,φ表示由先验u=(ui)i引起的H上的概率分布∈一、 政策文件φ=(φI)I∈I.让(ut)tdenote的序列为ut:H→ ×i∈我(Θi)因此,尽管如此≥ 1.我所做的一切∈ 一、 uit(h)=Bi(uit)递归定义的时间t的后部-1(h),坐下-1(h),xit-1(h),yit-1(h))所有h∈ H、 你坐哪儿-1(h)是playeri在t的信号- 1考虑到历史h,以及类似的脱欧-1(h)和yit-1(h)。定义6。给定政策文件φ=(φi)i的预期战略文件顺序∈随机变量σt:H的序列(σt)→ ×i∈我(Xi)尽管如此,我∈ 一、 以及所有(xi,si)∈ Xi×Si,σit(h)(Xi | Si)=Pξξi:φit(uit(h),si,ξi)=xi. (7) 预期策略文件σt描述了每个玩家在时间t对每个可能信号的行为;这是一个随机变量,因为它取决于玩家在时间t,ut时的信念,而这反过来又取决于过去的历史。根据假设1(ii)-(iii),存在θ∈ Θ和一个包含它的开放球,使得球中任何θ的Qiθ>0。因此,对于任何ui,都可以很好地定义贝叶斯算子∈ (Θi)。此外,根据假设1(iii),这样的θ在Θ中是稠密的,因此贝叶斯算子映射(Θi)进入自身。声称玩家行为稳定的一个合理标准是,他们的终止行为以正概率稳定(参见Fudenberg和Kreps,1993)。定义7。

33
mingdashike22 在职认证  发表于 2022-5-7 03:00:42
如果预期策略序列(σt)t以正概率[或概率1]收敛到σ,即Pu,φ,则策略文件σ在政策文件φ下是稳定的[或强稳定的]极限→∞kσt(h)- σk=0> 0[或=1]。引理2说,如果行为稳定到一个策略文件σ,那么,对于每一层i,信念变得越来越集中于Θi(σ)。这一结果将错误学习(Berk(1966)、Bunke和Milhaud(1998))统计数据的发现扩展到具有主动学习的环境(即,玩家从自身行为内生产生的数据中学习)。出现了三个新问题:(i)以前的结果需要扩展到非i.i.d.和内生数据的情况;(ii)不明显的是,稳态信念可以基于稳态行为来描述,与游戏路径无关(假设1在这里起着重要作用;示例见第5节);(iii)我们允许wKLD功能不受限制,以便玩家可以相信其他玩家遵循纯粹的策略。引理2。假设对于一个政策文件φ,对于集合H中的所有历史,预期策略序列(σt)t收敛于σ 使得Pu,φ(H)>0。然后,对于所有开放集用户界面 Θi(σ),limt→∞uit(Ui)=1,a.s.-Pu,H中的φ。见附录。引理2的证明简图如下(为了减轻符号负担,我们省略了i下标)。考虑一个武断的问题 > 0和一个开放集Θ(σ)  定义为 Θ(σ)的距离。

34
何人来此 在职认证  发表于 2022-5-7 03:00:45
Θ的补码后面的时间t(σ) ,ut(Θ\\Θ)(σ) ),可以表示为Θ\\Θ(σ) Qt-1τ=0Qθ(yτ| sτ,xτ)u(dθ)ΘQt-1τ=0Qθ(yτ| sτ,xτ)u(dθ)=(σ) etKt(θ)u(dθ)\'ΘetKt(θ)u(dθ)例如,如果玩家1认为玩家2用概率θ和概率θ玩A,用概率1玩B-θ、 如果玩家2以正概率玩B,则wKLD函数在θ=1处是一致的。式中,Kt(θ)等于减去对数似然比,-tPt-1τ=0lnQστ(yτ| sτ,xτ)Qθ(yτ| sτ,xτ)。这个表达式和简单的代数意味着ut(Θ\\Θ)(σ)) ≤'Θ\\Θ(σ) 对于任何δ>0和θ,et(Kt(θ)+K(σ,θ)+δ)u(dθ)\')η(σ)et(Kt(θ)+K(σ,θ)+δ)u(dθ)∈ Θ(σ)和η>0被视为“小”。粗略地说,RHS中分子的积分被用来表示-与Θ(σ)分离,而分母中的积分则接管了与Θ(σ)“η-接近”的点。直观地说,如果Kt(·)的行为与-K(σ,·),存在有效的对称δ>0和η>0,使得Kt(θ)+K(σ,θ)+δ对于所有θ都是负的,它们是“-与Θ(σ)分离,且所有θ为正,与Θ(σ)为“η-接近”。因此,如果Θη(σ)在先验条件下具有正测度,则算数收敛到零,而分母发散到单位。证明的非标准部分包括确定Θη(σ)在先验条件下具有正度量,这依赖于假设1,并且确实Kt(·)的行为渐近类似-K(σ,·)。借助于Fatou引理,对于θ∈ Θη(σ)表示Kt(θ)到-K(σ,θ);这是在附录中的ClaimB(i)中完成的,它依赖于非iid变量的LLN参数。另一方面,在θ上∈ Θ \\Θ(σ) ,我们需要控制Kt(.)的渐近行为一致地,能够交换极限和积分。

35
能者818 在职认证  发表于 2022-5-7 03:00:48
在附录中的权利要求B(ii)和B(iii)中,我们确定存在α>0,使得渐近andoverΘ\\Θ(σ) ,Kt(·)<-K(σ,θ)- α.引理2意味着后验概率的支持收敛,但后验概率不必收敛。然而,我们总能找到一系列收敛的后验概率。通过信念中行为的连续性和玩家近视的假设,稳定的策略文件必须是静态最优的。因此,当参与者遵循最优策略时,我们得到了稳定策略集的以下特征。定理2。假设一个策略变量σ在扰动博弈的最优策略变量下是稳定的。σ是扰动博弈的Berk-Nash均衡。证据设φ表示σ稳定的最优策略函数。通过引理2,存在H 当Pu,φ(H)>0时,对于所有H∈ H、 极限→∞σt(h)=σ和极限→∞uit(Ui)=1代表所有i∈ 我和所有开放集用户界面 Θi(σ);对于剩余的证据,fix any h∈ H.尽管我∈ 一、 压缩性(i)意味着子序列的存在,我们将其表示为(uit(j))j,使得uit(j)弱地收敛到ui∞(限值可能取决于h)。最后,我们展示,尽管我∈ I:(I)uI∞∈ (Θi(σ)):假设不是,所以存在^θi∈ 补充(ui)∞) 这样^θi/∈ Θi(σ)。然后,由于Θi(σ)是闭合的(由引理1),因此存在一个开放的setUi Θi(σ)与闭包^i^θi/∈“用户界面。

36
kedemingshi 在职认证  发表于 2022-5-7 03:00:51
然后我∞(\'Ui)<1,但这与ui∞“用户界面≥ 林苏普→∞uit(j)“用户界面≥ 林杰→∞uit(j)(Ui)=1,其中firstinequality成立,因为¨Ui是闭合的,而uit(j)收敛(弱)到ui∞.(ii)对于给定ui的扰动对策,σii是最优的∞∈ (Θi):σi(xi | si)=limj→∞σit(j)(h)(xi | si)=limj→∞Pξξi:xi∈ ψi(uit(j),si,ξi)= Pξξi:xi∈ ψi(ui)∞, si,ξi),其中,第二个等式是因为φiis最优和ψiis单值,a.s.Pξi,第三个等式是因为标准连续性参数。4.3相反的结果OREM 2为伯克-纳什均衡提供了我们的主要理由:任何不是均衡的战略文件都不能代表优化参与者的限制行为。然而,定理2并不意味着行为稳定。众所周知,纳什均衡是伯克-纳什均衡的一个特殊情况,其收敛性是不保证的。因此,需要放松一些假设,以证明一般博弈的收敛性。Fudenberg和Kreps(1993)表明,对于纳什均衡的情况,可以通过放松最优性和允许玩家犯消失的优化错误来获得相反的结果。定义8。如果存在两个极限的正真值序列(εt),则策略文件φ是渐近最优的→∞εt=0,因此,对于所有i∈ 一、 全部(uI,si,ξI)∈ψis单值a.s.-Pξi由于ξ的集合#ψi(ui,si,ξi)>1的维数小于#xind,通过Pξi的绝对连续性,该集合的测度为零。Jordan(1993)证明了非收敛性对初始条件的选择是鲁棒的;贝内曼德·赫希(1999年)将这一发现复制到了乔丹游戏的不安版本中。在博弈论文献中,一般的全局收敛结果只在特殊的格网类中得到。

37
大多数88 在职认证  发表于 2022-5-7 03:00:54
零和、势和超模对策(Hoffauer和Sandholm,2002)。(Θi)×Si×Ξi,全部t,全部xi∈ Xi,E’Qiui(·si,xit)πi(xit,Yi)+ ξi(xit)≥ E|Qiui(·si,xi)πi(xi,Yi)+ ξi(xi)- εtwxit=φit(ui,si,ξi)。Fudenberg和Kreps(1993)的洞见是假设玩家很早就确信均衡策略是正确的策略,并继续使用这种策略,除非他们有足够有力的证据认为不是这样。而且,随着他们继续采取均衡策略,证据越来越让他们相信这是正确的做法。然而,这种想法不必适用于伯克-纳什均衡,因为如果模型被错误定义,信念可能不会收敛(参见伯克(1966)的例子)。然而,如果博弈是弱识别的,引理2和Fudenberg and Kreps(1993)的洞见可以结合起来,得到定理2的以下逆。勘误表(2019年11月19日):我们感谢山本裕一指出定理3的陈述应更正如下:定理3。假设σ是一个扰动博弈的Berk-Nash均衡,该扰动博弈在给定σ和let(¨ui)i的情况下是弱识别的∈Ibe是一个支持σ作为非平衡的信念文件。然后,对于任何满足ui(·|i(σ))的先验函数,对于所有i∈ 对于任何a>0,都存在一个渐近最优的政策文件φ,使得pu,φ(limt→∞kσt(h)- σk=0)>1- a、 证据。见在线附录B.5讨论假设1的重要性。下面的例子说明,如果假设1不成立,平衡可能不存在,引理2失败。单个代理选择动作x∈ {A,B}并得到结果y∈ {0, 1}.

38
kedemingshi 在职认证  发表于 2022-5-7 03:00:57
代理的模型由θ=(θA,θB)参数化,其中Qθ(y=1 | A)=θA和Qθ(y=1 | B)=θB。关于先验的陈述强调了我们选择的先验不会以一种使结果变得微不足道的方式退化。真正的模型是θ=(1/4,3/4)。然而,代理是错误的,并且认为θ=(0,3/4)和θ=(1/4,1/4)是可能的,即Θ={θ,θ}。特别是,假设1(iii)对参数值θ无效。假设A对于参数值θ是唯一最优的,B对于θ是唯一最优的(不需要关于支付的更多细节)。伯克-纳什均衡不存在:如果A以正概率进行博弈,那么wKLD在θ处是一致的(即,给定A,θ不能使y=1合理化),θ是最好的;但是,A不是最优的。如果B的概率为1,那么θ是最好的;但是B不是最优的。此外,引理2失败了:假设游戏路径收敛于纯策略B。给定B的最佳函数是θ,但后一个不需要弱收敛于θ上的退化概率分布;有可能,在游戏的过程中,特工尝试了动作A,并观察到y=1,在这种情况下,后路会立即将概率1分配给θ。有远见的探员。在动态模型中,我们假设玩家近视。在在线附录C中,我们将定理2推广到非短视玩家的情况,他们用信念作为状态变量来解决动态优化问题。定理2证明中使用的一个关键事实是,短视的最优行为在信念中是连续的。非近视最佳行为在信念上也是连续的,但问题是,如果玩家仍然有尝试的动机,它可能与稳态下的近视行为不一致。

39
可人4 在职认证  发表于 2022-5-7 03:01:01
我们通过要求游戏是弱识别的来证明扩展,这保证了玩家没有在稳态下进行实验的动机。大人口模型。该框架假设有固定数量的玩家,但通过关注静态主观模型,排除了玩家试图影响彼此游戏的“重复游戏”方面。在在线附录D中,我们对均衡概念进行了调整,以适应在每个玩家的角色中有大量代理的情况,从而使代理具有影响彼此游戏的可忽略的意识。广泛形式的游戏。我们的结果支持另一种时机,即playeri承诺执行信号应急行动计划(即策略),并观察实现的信号SIA和后果yiex post。特别是,伯克-纳什均衡适用于广泛形式的博弈,前提是参与者通过选择或有行动计划进行竞争,并且知道广泛形式。但正确的方法是假设1(iii)成立,如果对于某些ε>0,θ=(ε,3/4)也适用于所有ε<0的情况≤ ε.不太清楚玩家是否对广泛形式有错误的看法(例如,他们甚至不知道他们可以使用的策略集),或者玩家是否按顺序玩游戏(例如,我们需要在每个信息集定义和更新信念)。扩展到广泛形式的游戏是留给未来的工作。与有限理性文献的关系。通过提供一种明确潜在错误的语言,我们为在有限理性的不同模型之间进行选择提供了一些指导。

40
大多数88 在职认证  发表于 2022-5-7 03:01:04
例如,我们可以在例2.3中模拟观察到的讲师行为,直接假设她相信批评会提高绩效,而表扬会恶化绩效。但将这种观察到的信念外推到其他情况可能会导致错误的结论。相反,我们假设我们认为的是一个似是而非的误判(即,未能解释回归到平均值),然后作为上下文的函数,从内生角度推导出信念。我们在论文中提到了几个有限理性的例子,这些例子可以通过不明确的内生学习实现。文献中的其他例子也可以被视为使用wKLD度量来限制信念,但超出了本文的范围,因为互动是由价格介导的,或者因为问题是动态的(我们关注的是静态问题的重复)。例如,Blume和Easley(1982年)以及Rabin和Vayanos(2010年)使用似然函数的极限明确地刻画了线性函数,而Bray(1982年)、Radner(1982年)、Sargent(1993年)和Evans和Honkapohja(2001年)则特别关注使用错误模型的OLS学习。Piccione和Rubinstein(2003年)、Eyster和Piccione(2013年)以及Spiegler(2013年)研究了动态环境中的模式识别和对信念的不确定性要求,这些信念可以被解释为最小化WKLD度量。在奥斯本、鲁宾斯坦(1998)和斯皮格勒(2006)的抽样均衡中,由于从有限的样本中学习,而不是从错误的学习中学习,信念可能是不正确的。有限理性的其他例子似乎并不天生适合于错误的学习,包括信息处理中的偏见dueJehiel(1995)考虑了重复交替移动游戏的类别,并假设玩家只能预测未来有限的时间段;学习基金会见Jehiel(1998)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-11 01:51