楼主: 大多数88
1258 59

[量化金融] 错指定马氏决策过程的均衡 [推广有奖]

21
mingdashike22 在职认证  发表于 2022-5-7 18:10:41
由于该策略不依赖于状态,因此mS |X(·|X;σH)不依赖于X,因此与S上的边缘平稳分布一致,用mS(·;σH)表示∈ (S) 。这个分布是唯一的,由解tomS(1;σH)=(1)给出- mS(1;σH))((1)- σH)q0L+σHq0H)+mS(1;σH)((1)- σH)q1L+σHq1H)。平衡我们通过关注信念θ(σH)=(θL(σH),θH(σH))来限制对实验稳健的平衡的关注(即完美平衡;参见第6节)≡ 给定策略σH的θQ(m(·;σH))∈ [0, 1].接下来,让我们(θ(σH))是给定策略σH的预期收益差异。注意σH7→ (θ(σH))在下降,这意味着选择价格H的概率越高,人们对选择H和L的好处就越悲观。因此,存在一种独特的(完美的)均衡策略。图1描述了一个均衡为混合策略的例子。自从(θ(0))>0,总是选择低价的管理者必须相信均衡,即设定高价反而是最优的。同样地,(θ(1))<0意味着总是选择高价格的代理必须相信均衡,即设定低价格不会是最优的。因此,在均衡状态下,代理选择严格混合的策略*H∈ (0,1)使(θ(σ*H) )=0。σH=0和σH=1分别是由信念θH(0)=0和θL(1)=0支持的伯克-纳什均衡。

22
kedemingshi 在职认证  发表于 2022-5-7 18:10:45
然而,这些结果对实验并不可靠,通过求θH(0)=limσH可以消除→0\'sH(m(·;σH))=\'sH(m(·;0)),对于θL(1)也是如此。原因是ddσH(θ(σH))=ddσHmS(1;σH)(H(q1H)- q0H)+L(q1L)- q0L)>0,因为所有x的σHmS(1;σH)<0和q1x>q0x∈ {L,H}。参见Esponda和Pouzo(2016),了解混合策略在特定环境中的重要性。更一般地说,唯一平衡是σH=0,如果(θ(0))<0(即HL≤ D≡q0L(1-q1L)q0H+q1Hq0L),σH=1如果(θ(1))>0(即HL≥ D≡ (1 - q1H)q0Lq0H+q1L),和σ*H∈ (0,1)解决方案(θ(σ*H) 如果D<HL<D,则=0,其中q1lq1h<D<q0Lq1H。1σ*HσHb(θ(·))图1:垄断的均衡举例:由于她没有意识到今天的高价格会让她在未来付出代价,因此,不规范的垄断者最终可能会选择比最优价格更高的价格。但是,更令人惊讶的是,她最终可能会为一些原语选择更低的价格。原因是她没有意识到H在s=1状态下表现相对较好,这使得她对H没有吸引力。4.2关于未来工作的不确定性搜索自McCall(1970)以来,搜索理论模型一直是理解劳动力市场的核心。大多数文献都假设工人知道所有的原语。例外情况包括Rothschild(1974年a)和Burdett and Vishwanath(1988年),其中工人不知道工资分布,但有一个正确指定的模型。相比之下,我们研究的是一名工人或企业家,她知道新项目的工资或回报分布,但不知道她能够找到新工作或资助新项目的可能性。然而,在很难找到新工作或资助新项目的情况下,员工或企业家没有意识到自己被解雇或项目失败的概率更高。

23
能者818 在职认证  发表于 2022-5-7 18:10:48
我们发现,工人或企业家对发现新前景的机会变得悲观,并在均衡状态下接受低回报的前景。MDP。在每个阶段t的开始,工人(或企业家)将面临下注者(或有回报的项目)wt∈ S=[0,1]并决定是拒绝还是接受它,xt∈ X={0,1}。她在t期的报酬是π(wt,xt)=wtxt;i、 e,如果Cδ<H/L<D,则她会获得报酬;见脚注14和18。可行行动集独立于状态,即对于所有w,Γ(w)=X∈ 她接受,否则归零。在做出决定后,经济基本面∈ Z是从i.i.d.分布G中提取的。如果工人被雇佣,则她(或项目失败)的概率为γ(zt)。如果该工人失业(无论是因为她被雇佣,然后又失业,还是因为她在该期间开始时没有接受雇佣),那么她用概率λ(zt)得出一个新的工资wt+1∈[0,1]根据密度为F的绝对连续分布F;工资是独立的,并且在不同的时间内分布相同。概率为1- λ(zt),失业工人得不到任何工资,我们用wt+1=0来表示相应的状态,而不丧失一般性。工人必须在下一周期开始时决定是否接受或拒绝wt+1。如果工人在时间t开始时接受了工资为wt的工作,但没有被解雇,那么她将从工资为wt+1=wt的下一个周期开始,并将再次决定是辞职还是继续在该周期工作。代理商希望通过折扣系数δ最大化折扣预期效用∈ [0, 1).

24
可人4 在职认证  发表于 2022-5-7 18:10:52
假设γ≡ E[γ(Z)]>0和λ≡ E[λ(Z)]>0。我们假设Cov(γ(Z),λ(Z))<0;例如,当经济基本面强劲时,工人更有可能获得报酬,而当经济基本面疲软时,工人获得报酬的可能性较小。SMDP。工人知道除λ(·)之外的所有原语,λ(·)决定了接受服务的可能性。工人有一个错误的世界模型,认为λ(·)不依赖于经济基础,即λ(z)=θ∈ Z,其中θ∈ [0,1]是未知参数。转移概率函数Qθ(w | w,x)如下:如果x=1,那么w=w,概率为1- θ、 wis a从概率θγ的F中得出,w=0的概率为(1)- θ)γ; 如果x=0,那么从概率θ的F和概率1的w=0中得出- θ.平衡最优性。假设工人相信真实参数为θ,概率为1。获得工资的价值∈ S isV(w)=max{w+δ((1- γ) V(w)+(1)- θ) γV(0)+θγE[V(W)],0+δ(θE[V(W)]+(1- θ) V(0))}。为了简化表示法,我们假设基本原理未被观察到,但如果观察到,结果是相同的,因为它是i.i.d.并且是在工人做出决定后实现的。形式上,Q(w | w,x)如下:如果x=1,那么w=w,概率为1- γ、 wis是概率为E[γ(Z)λ(Z)]的F的一个图,概率为E[γ(Z)(1)的w=0- λ(Z))];如果x=0,那么w=0,F的概率为λ,w=0的概率为1- λ.如果试剂也不确定γ(·),则结果相同;考虑到当前的错误定义,代理只关心γ的期望值,并对其有正确的信念。根据标准参数,她的最优策略是一个平稳的保留工资策略w(θ),它解决了以下方程:w(θ)(1)- δ + δγ) = δθ(1 - γ) ^w>w(θ)(w- w(θ))F(dw)。

25
能者818 在职认证  发表于 2022-5-7 18:10:55
(6) 工人接受高于保留工资的工资,拒绝低于保留工资的工资。还有θ7→ w(θ)在增加:获得工资的可能性越高,她就越愿意等待未来更好的工资。图2描述了一个示例。信仰。对任何人来说∈ (S×X),wKLD简化toKQ(m,θ)=^S×XEQ(·w,X)hlnQ(w | w,X)Qθ(w | w,X)im(d | w,dx)=nE[γλ]lnE[γλ]γθ+E[γ(1)- λ) ]lnE[γ(1)- λ)]γ(1 - θ) omX(1)+nλlnλθ+(1)- λ) ln1- λ1 - θomX(0),其中,由于工人知道,所以WC的密度减小,其中mx是X上的边际分布。在在线附录中,我们证明了使KQ(m,·)最小的唯一参数是θQ(m)≡mX(0)mX(0)+mX(1)γλ+1.-mX(0)mX(0)+mX(1)γλ+Cov(γ,λ)γ. (7) 要了解等式(7)背后的直觉,请注意,代理人只观察λ的实现,即,当她失业时,她是否收到工资。失业可以是自愿的,也可以是非自愿的。在第一种情况下,代理人拒绝支付,因为这一决定发生在基本面实现之前,它与是否获得支付无关。因此,在自愿失业的条件下,代理人将观察到获得福利的无偏平均概率λ(见第(7)项RHS中的第一项)。在第二种情况下,代理人接受服务,但被拒绝。由于Cov(γ,λ)<0,她不太可能在发红的时期受到影响,因为她没有考虑这种相关性,相对于平均概率λ(7)的RHS中的第二项捕捉到了这种偏差)。1“Eλ”θM“wM”1“w”θ“w(θ)%θ(w)%”图2:搜索模型平稳分布的平衡。

26
nandehutu2022 在职认证  发表于 2022-5-7 18:10:58
固定保留工资策略w,并用mX(·;w)表示相应平稳分布的边际X∈ (十) 。在联机附录中,我们对mX(·;w)进行了表征,并表明w 7→ mX(0;w)正在增加。从直觉上看,工人越挑剔,失业的可能性就越高。平衡设θ(ω)≡ θQ(m(·;w))表示代理遵循保留工资策略w的均衡信念。等式(7)中λ上的权重表示在失业条件下自愿失业的可能性。这个重量以ω为单位递增,因为W7→ mX(0;w)正在增加。因此,W7→ θ(w)在增加。在w=1的极端情况下,工人拒绝所有工作,失业始终是自愿的,偏见消失,θ(1)=λ。计划θ(·)的示例如图2所示。Berk-Nash平衡集由w(·)和θ(·)的交集给出。在图2所示的例子中,有一个独特的平衡策略wM=w(θM),其中θM<λ。最后,我们将伯克-纳什均衡与一个了解原语的工人的最优策略进行比较,w*. 根据标准参数,w*这是唯一的解决方案吗*(1 - δ + δγ) = δ(λ - E[γλ]^w>w*(w)- W*) F(dw)。(8) 等式(6)和(8)之间唯一的差异出现在乘以thrhs这一术语中,它反映了接受工资福利的成本。在错误指定的情况下,该项为Δθ(1-γ); 在正确的情况下,它是δ(λ)- E[γλ]=Δλ(1)-γ)-δCov(γ,λ)。这种特殊性通过两种方式影响最佳阈值。首先,误判者错误地估计了λ的平均值,即θ<λ;因此,她(错误地)认为,在预期中,顾客到达的概率较低。

27
何人来此 在职认证  发表于 2022-5-7 18:11:03
其次,她没有意识到,因为Cov(γ,λ)<0,她在发烧时不太可能受到影响。这两种影响的方向是相同的,使得拒绝和等待下一个时期获得新工资的可能性对特殊员工的吸引力降低。形式上,θδ(1)- γ) < δλ(1 - γ) - δCov(γ,λ)和so wM<w*.4.3具有相关冲击的随机增长自Brock和Mirman(1972)的工作以来,随机增长模型一直是研究资本和消费跨期最优配置的核心。Freixas(1981年)和Koulovatianos等人(2009年)假设代理人通过正确指定的模型学习分销过剩产能冲击。我们遵循Hall(1997)和随后的文献,将冲击纳入偏好和生产率,但假设这些冲击(正)相关。我们表明,未能解释冲击相关性的代理人在均衡状态下投资不足。MDP。在每个时间段t中,一个代理观察st=(yt,zt)∈ S=R+×{L,H},其中Y是前一时期的收入,ZT是当前的效用冲击,并选择要储蓄多少收入,xt∈ Γ(yt,zt)=[0,yt] X=R+,消耗剩下的。当期效用为π(yt,zt,xt)=ztln(yt- xt)。下一期收入yt+1由n yt+1=α给出*+ β*ln xt+εt,(9)式中εt=γ*zt+ξ这是一个未观察到的生产率冲击,ξt~ N(0,1)和0<Δβ*<1,其中δ∈ [0,1)是贴现系数。我们假设γ*> 0,因此效用和生产率冲击正相关。设0<L<H,设q∈ (0,1)是冲击波为H.SMDP的概率。代理相信ln yt+1=α+βln xt+εt,(10)形式上,Q(y,z | y,z,x)是与yand zare无关的,具有平均α的对数正态分布*+ β*lnx+γ*z和单位方差,z=H和概率q,其中εt~ N(0,1),与效用冲击无关。

28
kedemingshi 在职认证  发表于 2022-5-7 18:11:06
为简单起见,我们假设代理人知道效用冲击的分布,并且不确定θ=(α,β)∈ Θ=R。主观转移概率函数Qθ(y,z | y,z,x)是独立的,y为对数正态分布,平均α+βln x和单位方差,z=H为概率Q。代理人有一个错误的模型,因为她认为生产率和效用冲击实际上是独立的*6= 0.平衡最优性。agent的Bellman方程isV(y,z)=max0≤十、≤yz ln(y)- x) +δE[V(Y,Z)|x]可以直接验证最优策略是投资一小部分收益,这取决于效用冲击和未知参数β,即x=Az(β)·Y,其中AL(β)=Δβ((1-q) L+qH)(1-δβ(1-q) H+Δβ(1)-q) 和AH(β)=Δβ((1-q) L+qH)ΔβqH+(1-Δβq)L<AL(β)。对于了解原语的代理来说,最佳策略是投资分形(β)*) 和啊(β*) 分别处于低位和高位。自β7以来→ Az(β)在增加,通过将β的平衡信念与真实β进行比较,可以将错误指定的试剂的平衡策略与最佳策略进行比较*.信念和平稳分布。设A=(AL,AH),其中AH<AL,表示Astragy,其中Azi是给定公用事业冲击z的投资收入比例。因为代理认为ε独立于公用事业冲击且呈正态分布,最小化wKLD函数相当于执行公式(10)的OLS回归。因此,对于由a=(AL,AH)表示的策略,使wKLD最小化的参数值β(a)=Cov(lny,lnx)var(lnx)=Cov(lny,lnazy)var(lnazy)=β*+ γ*Cov(Z,ln-AZ)V-ar(ln-AZ)+V-ar(Y)。式中,Cov和V ar是根据(Y,Z)的(真实)平稳分布计算的。因为AH<AL,那么Cov(Z,ln-AZ)<0。

29
mingdashike22 在职认证  发表于 2022-5-7 18:11:10
因此,假设γ*> 0表示偏差β(A)- β*是负的,其大小取决于策略A。直觉上,当z较低时,代理人投资收入的较大部分,而这恰好发生在ε也较低的时候。平衡通过证明函数^β(AL(β),AH(β))至少有一个固定点,我们确定存在至少一个正投资均衡。函数在β中是连续的,满足β(AL(0),AH(0))=β(AL(1/δ),AH(1/δ))=β*β(AL(β),AH(β))<β*无论如何∈ (0, 1/δ). 那么既然*< 1.至少存在一个固定点βM,且任何固定点满足βM∈ (0, β*). 因此,与最优策略相比,错误指定的代理在均衡中投资不足。如果γ*< 0,说明了该框架如何提供对依赖于原语的信念和行为的预测(而不是简单地假设代理对生产率的认知过高或过低)。5均衡基础在本节中,我们为SMDP的伯克-纳什均衡概念提供了学习基础。我们定义了一个SMDP,并假设该代理是贝叶斯的,并以先验知识开始∈ (Θ)在她那套世界模型之上。她观察过去的行为和状态,并利用这些信息更新她在每个时期对Θ的信念。定义11。对于任何(s,x,s)∈ Gr(Γ)×S,设B(S,x,S,·):Ds,x,S→ (Θ)表示贝叶斯算子:对于所有A ΘBorelB(s,x,s,u)(A)=AQθ(s | s,x)u(dθ)ΘQθ(s | s,x)u(dθ)。(11) 任何情况下∈ Ds,x,s,其中Ds,x,s={p∈ (Θ):\'ΘQθ(s | s,x)p(dθ)>0}。定义12。贝叶斯主观马尔可夫决策过程(BayesianSMDP)是一个SMDP(Q,QΘ)和一个先验参数∈ (Θ)和Bayesianoperator B(见定义11)。

30
nandehutu2022 在职认证  发表于 2022-5-7 18:11:14
如果相应的SMDP是正则的,则称其为正则的。我们的存在定理并不直接适用,因为为了方便起见,我们假设了非有限状态和作用空间。这也是一个不投资的均衡,A=(0,0),由β信念支持*= 0,由于未进行投资,因此无法取消确认。但这种平衡对实验来说并不可靠(也就是说,它并不完美;见第6节)。根据最优性原理,贝叶斯SMDP中的代理问题可以递归地转化为asW(s,u)=maxx∈Γ(s)^s{π(s,x,s)+δW(s,u)}Qu(ds|s,x),(12)其中‘Qu=’Qθu(dθ),u=B(s,x,s,u)是下一阶段的信念,使用贝叶斯规则更新,W:s×(Θ) → R是Bellman方程(12)的(唯一)解。与agent知道转移概率函数的情况相比,agent对Θ的信念现在是状态空间的一部分。定义13。策略函数是函数f:(Θ) → ∑将信念映射到策略(回想一下,策略就是映射σ:S→ (十) )。不管你相信什么∈ (Θ),州s∈ S、 行动x∈ 十、 设f(X | s,u)表示代理在选择策略函数f时选择X的概率。对于贝叶斯SMDP如果,对于所有∈ S、 u∈ (Θ)和x∈ X使得f(X | s,u)>0,X∈ arg max^x∈Γ(s)^s{π(s,^x,s)+δW(s,u)}Qu(ds|s,^x)。每u∈ (Θ),设∑(u) ∑表示由最优策略诱导的所有策略集,即∑(u)=σ ∈ Σ :  最优f,使得所有s的σ(·| s)=f(·| s,u)∈ s.引理4。(i) (12)中的Bellman方程有一个唯一的解W,对于所有的s,它以u为单位是连续的∈ s(二)最优策略的对应关系u7→“∑(u)是非空、紧值、凸值和上半连续的。证据

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 07:11