楼主: 大多数88
1257 59

[量化金融] 错指定马氏决策过程的均衡 [推广有奖]

11
可人4 在职认证  发表于 2022-5-7 18:10:06
我们为第5节的均衡提供了基础,并在第6.2节马尔可夫决策过程中研究了均衡需求。我们首先描述了代理所面临的环境。定义1。马尔可夫决策过程(MDP)是一个元组hS,X,Γ,q,q,π,δi其中oS是一组非空且有限的状态oX是一组非空且有限的动作oΓ:S→ 2x是非空约束对应关系oq∈ (S) 是初始状态的概率分布oQ:Gr(Γ)→ (S) 是转移概率函数oπ:Gr(Γ)×S→ R是一个逐期支付函数。在宏观经济学中,有几种模型,其中代理使用的统计模型是错误的(例如,Evans and Honkapohja(2001)第13章,Sargent(1999)第6章)。Jehiel和Samet(2007)考虑了具有完美信息的广泛形式博弈的一般类,并假设玩家通过将节点划分为相似类来简化博弈。对于通信Γ:S→ 2X,其图形由Gr(Γ)定义≡ {(s,x)∈ S×X:X∈ Γ(s)}δ ∈ [0,1)是一个贴现因子。我们有时使用MDP(Q)来表示带有转移概率函数Q的MDP,并排除剩余的原语。时间安排如下。在每个周期的开始t=0,1,2,…,agentobserves状态st∈ 选择一个可行的行动∈ Γ(st) X.然后根据概率分布Q(·| st,xt)绘制一个新的statest+1,并在周期t中根据agentreceives Payoffπ(st,xt,st+1)绘制初始状态。根据概率分布Q绘制初始状态。面对MDP的代理选择一个策略规则,在每个时间点指定一个(可能是随机的)动作,作为观察到的状态和动作历史的函数指向

12
kedemingshi 在职认证  发表于 2022-5-7 18:10:10
通常,代理人的目标是选择一个可行的政策规则,以最大化预期贴现效用P∞t=0δtπ(st,xt,st+1)。根据最优性原理,agent的问题可以递归地转换为vq(s)=maxx∈Γ(s)^s{π(s,x,s)+δVQ(s)}Q(ds|s,x)(3)式中VQ:s→ R是Bellman方程(3)的(唯一)解。定义2。策略σ是给定状态下动作的分布,σ:S→ (十) 满足σ(s)∈ Γ(s)表示所有s。设∑表示所有策略的空间,设σ(x | s)表示当状态为s定义3时,代理选择x的概率。策略∈ ∑对于MDP(Q)如果,对于所有∈ S和allx∈ 使得σ(X | s)>0,X∈ arg max^x∈Γ(s)^s{π(s,^x,s)+δVQ(s)}Q(ds|s,^x)。设∑(Q)为MDP(Q)的最优策略集。一个标准的结果是确定性最优策略的存在。然而,在转移概率函数不确定的情况下,允许随机化是很重要的。引理1。(i) (3)中的Bellman方程有一个唯一的解Vqt,对于所有s,它在Q中是连续的∈ s(ii)最优策略的对应关系SQ 7→ ∑(Q)是非空、紧值、凸值和上半连续的。证据证据是标准的,并归入在线附录。策略决定状态和动作空间中的转换,从而决定状态和动作上的平稳分布集。对于任意策略σ和转移概率函数Q,定义一个转移核Mσ,Q:Gr(Γ)→  (Gr(Γ))通过lettingMσ,Q(s,x | s,x)=σ(x | s)Q(s | s,x)(4)表示所有(s,x),(s,x)∈ Gr(Γ)。

13
nandehutu2022 在职认证  发表于 2022-5-7 18:10:13
转移核Mσ,qi是给定策略σ和转移概率函数Q的Gr(Γ)上的转移概率函数∈ (Gr(Γ)),设Mσ,Q[M]∈ (Gr(Γ))表示概率测度x(s,x)∈Gr(Γ)Mσ,Q(·,·| s,x)M(s,x)。定义4。分布图∈ (Gr(Γ))是给定(σ,Q)的平稳(或不变)分布,如果m=mσ,Q[m]。平稳分布表示当代理遵循给定策略时,结果(即状态和行动)的稳态分布。让智商(σ)≡ {m∈(Gr(Γ))|m=mσ,Q[m]}表示给定的平稳分布集(σ,Q)。引理2。平稳分布σ7的对应关系→ IQ(σ)是非空、紧值、凸值和上半连续的。证据见附录。3主观马尔可夫决策过程我们的主要目标是研究面对MDP但不确定转移概率函数的代理的行为。我们首先引入一个新的对象来建模不确定性问题,我们称之为主观马尔科夫决策过程(SMDP)。然后,我们定义了SMDP的伯克-纳什均衡的概念。3.1设置定义5。主观马尔可夫决策过程(SMDP)是一个MDP,hS,X,Γ,q,q,π,δi和一个非空的转移概率函数族,qΘ={qθ:θ∈ 其中每个转移概率函数Qθ:Gr(Γ)→ (S) 由一个参数θ表示∈ Θ.我们将集合QΘ解释为agent认为可能的不同转移概率函数(或世界模型)。我们有时使用SMDP(Q,QΘ)来表示一个SMDP,它具有真转移概率函数Q和一系列转移概率函数QΘ。定义6。

14
可人4 在职认证  发表于 2022-5-7 18:10:17
正则主观马尔可夫决策过程(正则SMDP)是满足以下条件的SMDPoΘ是欧几里德空间的一个紧子集。oQθ(s | s,x)作为θ的函数是连续的∈ Θ为所有人(s、s、x)∈ S×Gr(Γ)有一个密集的集合 Θ因此,对于所有θ∈^Θ,Qθ(s | s,x)>0表示所有(s,s,x)∈ S×Gr(Γ)使得Q(S | S,x)>0。定义6中的前两个条件将参数和连续性假设置于主观模型上。最后一个条件有两个作用。首先,它通过保证存在至少一个参数值来合理化每一个可行的观察结果,从而规定了一种明显的误判形式。其次,这意味着与真实模型最接近的参数的对应关系是上半连续的。Esponda和Pouzo(2016)提供了一个简单(非动态)的例子,其中该假设不成立,平衡不存在。如果没有有限维参数空间的假设,即使在正确指定的统计设置中,贝叶斯更新也不需要收敛到大多数先验和参数值的真值(Freedman(1963)、Diaconis和Freedman(1986))。请注意,如果状态或动作集不确定,参数假设只是一种限制,我们在一些示例中考虑了这种情况。3.2均衡本节的目标是定义SMDP的伯克-纳什均衡概念。下一个定义用于对信念施加约束∈ (Θ)如果m是结果的平稳分布,则代理可能持有。定义7。

15
可人4 在职认证  发表于 2022-5-7 18:10:20
加权Kullback-Leibler散度(wKLD)是一个映射kq:(Gr(Γ))×Θ→“\'R+使任何m∈ (Gr(Γ))和θ∈ Θ,KQ(m,θ)=X(s,X)∈Gr(Γ)EQ(·s,x)自然对数Q(S | S,x)Qθ(S | S,x)m(s,x)。给定m的一组最接近的参数值∈ (Gr(Γ))是集合ΘQ(m)≡ arg minθ∈ΘKQ(m,θ)。当从分布m得出结果时,集合ΘQ(m)包含的参数值与真转移概率函数Q构成最佳拟合。引理3。(i) 每m∈ (Gr(Γ))和θ∈ Θ,KQ(m,θ)≥ 当且仅当Qθ(·| s,x)=Q(·| s,x)对于所有(s,x)的等式保持,使得m(s,x)>0。(ii)对于任何常规SMDP(Q,QΘ),m 7→ ΘQ(m)是非空的、紧值的、上半连续的。证据见附录。我们现在定义了平衡。定义8。策略与概率分布(σ,m)∈ Σ × (Gr(Γ))是SMDP(Q,QΘ)的aBerk-Nash均衡,如果存在一个信念∈ (i)σ是MDP的最佳策略(\'Qu),其中\'Qu=\'Qθu(dθ),(ii)u∈ (Q(m))和(iii)m∈ IQ(σ)。伯克-纳什均衡定义中的条件(i)要求σ是MDP中的最优策略,其中转移概率函数为ΘQθu(dθ)。条件(ii)要求代理仅对给定m,ΘQ(m)的一组最接近的参数值施加正概率。最后,条件(iii)要求m是给定的静态分布(σ,Q)。备注1。在第5节中,我们将均衡集解释为一个学习环境的稳态集,其中agent对Q不确定。均衡方法的主要优点是,它允许我们用一个简单的MDP和固定的转移概率函数来代替一个困难的学习问题。

16
kedemingshi 在职认证  发表于 2022-5-7 18:10:23
这种方法的代价是,它只能用来描述渐近行为,而不是从状态的初始分布q开始的实际动力学∈ (S) 。这就解释了为什么qd没有进入平衡的定义,以及为什么qa和相应平衡集之间的映射通常无法提供。备注2。在静态环境的特殊情况下,定义8简化为Espondaan和Pouzo(2016)对单个代理的Berk-Nash均衡的定义。在动态环境中,结果遵循马尔可夫过程,我们不仅要跟踪策略,还要跟踪结果的相应平稳分布。下一个结果建立了任何规则SMDP中平衡的存在性。定理1。对于任何正规SMDP,都存在Berk-Nash均衡。证据见附录。证明存在的标准方法始于定义战略空间中的“最佳响应”。这种方法在这里不起作用,因为信念的可能非唯一性意味着对应关系可能不具有凸值。我们采用的技巧是通过策略、平稳分布和信念空间上的对应关系来定义均衡,然后使用引理1、2和3证明这种对应关系满足Kakutani不动点定理的广义版本的假设。Esponda和Pouzo(2016)依靠扰动来证明静态环境中平衡的存在。相比之下,我们的方法不需要使用扰动。3.3正确指定和识别的SMDP如果主观模型集包含真实模型,则SMDP是正确指定的。定义9。

17
可人4 在职认证  发表于 2022-5-7 18:10:27
如果Q∈ QΘ;在决策问题中,数据是内生的,因此,继Esponda和Pouzo(2016)之后,自然会考虑两个识别概念:弱识别和强识别。这些定义区分了平衡的结果和影响。在动态环境中,描述均衡路径上发生的事情的正确对象不是策略,而是结果m定义的平稳分布10。给定m,SMDP是弱识别的∈ (Gr(Γ))如果θ,θ∈ΘQ(m)表示所有(s,x)的Qθ(·s,x)=Qθ(·s,x)∈ Gr(Γ)使得m(s,x)>0;如果所有(s,x)的条件都满足∈ Gr(Γ),我们说,给定m,SMDP是强识别的。如果SMDP对所有m都是弱(强)识别的,则SMDP是弱(强)识别的∈ (Gr(Γ))。弱识别意味着,对于任何平衡分布m,Agent都是沿着平衡路径的唯一信念,即对于以正概率发生的状态和行为。事实证明,这是一个重要的条件,可以提供对实验具有鲁棒性(见第6节)且在正确指定的SMDP中始终满足的平衡。强烈的认同通过要求信念在平衡路径上也是唯一的,从而强化了条件。提议1。考虑一个具有相应MDP(Q)的正确规定和强烈识别的SMDP。策略与概率分布(σ,m)∈ Σ × (Gr(Γ))是SMDP的Berk-Nash均衡,当且仅当σ在给定MDP(Q)时为最优,且m在给定σ时为平稳分布。以下是弱识别失败的示例。假设一枚无偏硬币在每个周期内被抛出,但代理人认为硬币出现的概率是1/4或3/4,而不是1/2。

18
大多数88 在职认证  发表于 2022-5-7 18:10:30
然后,1/4和3/4都会使库尔贝克-莱布勒分歧最小化,但它们意味着对结果的不同分配。与此相关的是,伯克(Berk,1966)证明了信念并不一致。证据仅当:假设(σ,m)是Berk-Nash均衡。然后存在μ,例如给定MDP(\'Qu),σ是最优的∈ (Θ(m)),以及∈ 智商(σ)。因为MDP是正确指定的,所以存在θ*这样Qθ*= Q,因此,是3(i),θ*∈ (Θ(m))。然后,通过强识别,任何^θ∈ Θ(m)满意度Q^θ=Qθ*= Q、 这意味着,给定MDP(Q),σ也是最优的。如果:让我∈ IQ(σ),其中σ是给定MDP(Q)的最佳值。由于SMDP的规格正确,因此存在θ*这样Qθ*= 因此,通过引理3(i),θ*∈ (Θ(m))。因此,给定Qθ,σ也是最优的*, 这意味着(σ,m)是伯克-纳什均衡。命题1表示,在代理人对转移概率函数不确定,但其主观模型既有正确的定义,又有强烈的识别性的环境中,伯克-纳什均衡对应于转移概率函数正确信念下的MDP解。如果放弃SMDP被强烈识别的假设,则命题的“如果”部分继续成立,但“仅如果”条件不成立。换句话说,可能存在正确指定的SMDP的伯克-纳什均衡,其中代理对均衡路径有错误的信念。

19
nandehutu2022 在职认证  发表于 2022-5-7 18:10:33
平衡的这一特征类似于班迪特和自我确认的平衡文献的主要观点。4个示例我们使用三个经典示例来说明使用我们的框架扩展经典动态规划方法的范围是多么容易。4.1动态需求未知的垄断者Rothschild(1974b)和Nyarko(1991)分别在正确和错误的设置下研究了垄断者面临未知静态需求函数的问题。在下面的例子中,垄断者面对一个动态的需求函数,但错误地认为需求是静态的。MDP:在每个时期t,垄断者选择价格xt∈ X={L,H},其中0<L<H。然后销售st+1∈ S={0,1}单位,成本为零,并得到π(xt,st+1)=xtst+1。st+1=1的概率为qsx≡ Q(1 | st=s,xt=x),其中0<qsx<1表示所有(s,x)∈ Gr(Γ)=S×X。垄断者希望一组可行的行动独立于国家,也就是说,对于所有的S,Γ(S)=X∈ 利用贴现系数δ最大化预期贴现利润∈ [0,1)。需求是动态的,因为昨天的销售增加了今天的销售概率:q1x>q0xfor all x∈ X.此外,更高的价格降低了销售的可能性:qsL>QSH对于所有的s∈ S、 最后,对于混凝土,我们假设q1lq1h<HL<q0Lq0H。(5) 表达式(5)表示,如果上一期没有销售,则选择priceL,否则选择price H(即Lq0L>Hq0HandHq1H>Lq1L),从而使当期利润最大化。因此,知道原语的近视垄断者(即δ=0)的最优策略是σ(H | 0)=0和σ(H | 1)=1。然而,如果垄断者有足够的耐心,最好总是选择价格L.SMDP。垄断者不知道Q,错误地认为需求不是动态的。

20
能者818 在职认证  发表于 2022-5-7 18:10:38
形式上,QΘ={Qθ:θ∈ 其中,对于所有θ=(θL,θH)∈ Θ,Qθ(1 | s,L)=θLand Qθ(1 | s,H)=θH对于所有s∈ 特别是,θxis是给定价格x时发生销售的概率∈ {L,H},代理相信它不依赖于s。注意,这个SMDP是正则的。为了简单起见,我们将注意力集中在垄断者不以最后一个周期的状态为条件的均衡上,并用σH表示策略,即选择价格H的概率。平衡最优性。因为垄断者认为需求是静态的,所以最佳策略是选择使当期利润最大化的价格(θ) ≡ HθH- LθL注意到在参数值为θ=(θL,θH)且概率为1的情况下,选择H和L的感知预期收益差异。如果(θ) >0,σH=1是唯一的最优策略;如果(θ) <0,σH=0是唯一的最优策略;安迪夫(θ) =0,任意σH∈ [0,1]是最优的。信仰。对任何人来说∈ (S×X),wKLD简化toKQ(m,θ)=Xx∈{L,H}mX(x){sx(m)lnθx+(1)- \'sx(m))ln(1- θx)}+Const,形式上存在Cδ∈ [q1L/q1H,q0L/q0H],其中C=q1L/Q17→ Cδ在增加,因此,如果H/L<Cδ,最优策略是σ(H | 0)=σ(H | 1)=0。式中,sx(m)=mS|X(0|X)q0x+mS|X(0|X)qxis是给定X的销售概率。如果σL>0且σH>0,θQ(m)≡ (\'sL(m),\'sH(m))是使wKLD函数最小化的唯一参数值。然而,如果以零概率选择其中一个价格,则对相应参数的信念没有限制,即,最小值集为ΘQ(m)={(θL,θH)∈ Θ:θH=\'sH(m)}如果σL=0且ΘQ(m)={(θL,θH)∈ Θ:θL=\'sL(m)}如果σH=0。平稳分布。固定策略σ手用m(·;σH)表示相应的平稳分布∈ (S×X)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 07:09