楼主: kedemingshi
1592 47

[量化金融] 信息不完全不对称的Dynkin对策 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-6-10 21:47:03
右连续,非递减,带Γ0-= 0和Γ∞≤ 1}.具有不完全和不对称信息的DYNKIN博弈在上述定义中,我们使用Γ0-= 0表示Γ>0只能通过在时间0跳变过程来实现。显然,A Aθ,注意Γ∈ Aθ当且仅当Γ=Γ{θ=0}+Γ{θ=1}对于某些Γ,Γ∈ A、 为了确定随机停止时间(参见,例如,[37]),回想一下U是一个随机变量,它独立于W和θ,且均匀(0,1)分布。定义2.2(随机停止时间)。oFX随机停止时间是由(2)γ=inf{t)给出的随机变量γ≥ 0:Γt>U},对于某些Γ∈ A、 我们用TR表示FX随机化停止时间集。oFX,θ-随机化停止时间是一个随机变量γθ,由(3)γθ=inf{t≥ 0:Γt>U},对于某些Γ∈ Aθ。我们用TθR表示FX,θ-随机停止时间集 T TR公司 TθR。事实上,第一个内含物在定义上是明确的,第三个内含物从 Aθ;此外,如果τ∈ T,然后是带ΓT的构造(2)=0 t<τ1 t≥ τ给出了与τ一致的随机停止时间,这证明了中间包含。此外,任何γθ∈ 对于某些(γ,γ),Tθrca可以分解为γθ=γ{θ=0}+γ{θ=1}∈ TR×TR.我们说γ∈ Γ生成的TRis∈ A如果γ定义如(2)所示。同样,γθ∈ 由Γ生成的TθRis∈ Aθ,如果γθ的定义如(3)所示。为了将来参考,给出了γ∈ tr由Γ生成∈ A、 我们还引入了FX停止时间(即T的成员)γ(z):=inf{T≥ 0:Γt>z},对于所有z∈ [0, 1].(4) 定义2.3。

12
nandehutu2022 在职认证  发表于 2022-6-10 21:47:06
随机停止对是一对(τ,γθ)∈ T×TθR。有点滥用符号,我们有时写γθ=Γ=(Γ,Γ),其中(Γ,Γ)是生成γθ的Γ的分解,我们也指(τ,Γ)∈ T×Aθ作为随机停止对。给定随机停止对(τ,γθ)∈ T×TθR,从未知情玩家的角度来看,游戏的预期收益是J(τ,γθ)=J(τ,Γ,Γ):=E[R(τ,γθ)]。(5) 我们还说,这是事前游戏的预期回报(有关J的解释,请参见备注3.5)。游戏的下限值v和上限值v(对于玩家1)定义为v:=supτ∈Tinfγθ∈TθRJ(τ,γθ)≤ infγθ∈TθRsupτ∈TJ(τ,γθ)=:v,(6),我们说,如果v=v,则存在值v。定义2.4。随机停止对(τ*, γ*θ) ∈ T×Tθrisa鞍点ifE[R(τ,γ*θ)] ≤ E[R(τ*, γ*θ)] ≤ E[R(τ*, γθ)],对于所有其他对(τ,γθ)∈ T×TθR.6 TIZIANO DE ANGELIS、ERIK Ekstrom和Kristofer GLOVERRemark 2.5。对于零和博弈,标准的做法是查看博弈的价值概念和玩家的最优策略(即给出鞍点的策略)。a(τ)的存在性*, γ*θ) 因为事前博弈意味着一个值的存在,并且τ*和γ*θ分别是参与者1和参与者2的最优策略。我们的方法还将涉及对游戏(或代理形式游戏)的临时(非零和)版本的研究,其中自然解的概念是纳什均衡。备注2.6。我们将注意力限制在T中的停车时间上,即精确到a.s的停车时间。这样做的好处是,符号和计算变得更容易。

13
mingdashike22 在职认证  发表于 2022-6-10 21:47:09
此外,重新校准g≥ f≥ 0,鞍点(τ*, γ*θ) ∈ T×TθR(定义2.4)也将是相应博弈的鞍点,策略为T×TθRand,预期收益J(τ,γθ):=E[R(τ,γθ)1{τ∧γθ<∞}].(7) 实际上,假设(τ*, γ*θ) ∈ T×TθRis是定义2.4中的鞍点。τ的完整性*γ的最优性*θwe haveJ(τ*, γθ)=J(τ*, γθ) ≥ J(τ*, γ*θ) =J(τ*, γ*θ) 对于所有γθ∈ TθR.此外,J(τ,γ*θ) =Ehlim infn→∞R(τ∧ n、 γ*θ)1{τ∧γ*θ<∞}我≤ lim信息→∞EhR(τ∧ n、 γ*θ)1{τ∧γ*θ<∞}我≤ lim信息→∞E[R(τ∧ n、 γ*θ)] ≤ J(τ*, γ*θ) =J(τ*, γ*θ) 对于任意τ∈ 其中第二个不等式是法图引理。因此,我们的索赔得到了证实。备注2.7。如果游戏有一个值(v=v in(6)),则玩家1在选择随机停止时间时没有任何益处(比较,例如,[28])。事实上,首先请注意SUPτ∈TJ(τ,γθ)=supτ∈任意γθ的TJ(τ,γθ)∈ TθRby由Fatou引理和(7)中的Jas组成(也可参见上面的注释)。因此,对于任何γθ∈ TθRandγ∈ TR(使用U的两个独立副本进行随机化),我们有j(γ,γθ)=ZJ(γ(z),γθ)dz≤ supz公司∈[0,1]J(γ(z),γθ)≤ supτ∈TJ(τ,γθ)=supτ∈TJ(τ,γθ),其中我们还回顾了(4)。上述不等式意味着≤ supγ∈TRinfγθ∈TθRJ(γ,γθ)≤ infγθ∈TθRsupγ∈TRJ(γ,γθ)≤ v、 这验证了我们的说法,前提是v=v。请注意,上述备注中的参数要求存在一个值,即使未提供信息的玩家没有使用随机停止时间。这种情况通常不会发生,但我们可能会认为它应该在我们的游戏中保持,因为(至少)两个事实的结合:(1)不知情的玩家(玩家1)没有隐藏的信息,(2)她也没有避免同时停止的动机;事实上,玩家1同时停车的回报永远不会比独自停车更糟糕(因为g≥ f) 。

14
可人4 在职认证  发表于 2022-6-10 21:47:14
换言之,不需要随机化来抵消知情玩家的任何模仿行为,这将迫使未知情玩家获得较低的报酬(见[28])。信息不完全和不对称的DYNKIN博弈7备注2.8。对于有界Payoff函数f和g,本文的设置和结果直接扩展到相反的情况,相反,玩家1知道漂移,而玩家2只知道部分信息。然而,需要额外注意无限制支付;特别是,需要注意支付时间的具体规定,以及下文定理5.1中规定的适当横向条件。3、停止与奇异控制的等价对策本文在马尔可夫环境下建立了该对策,并证明它等价于一个3人非零和的奇异控制与停止对策。后者对应于游戏的临时版本。我们首先以一种更明确的形式重写预期成本函数,它考虑了参与者1通过过程X的观察了解到的真实漂移≥ 0用(8)πt表示:=P(θ=1 | FXt)给定基本过程X的观察值θ=1的条件概率。根据标准过滤理论(见[31,第9章]),我们得到dxt=(u(Xt)(1- ∏t)+u(Xt)∏t)dt+σ(Xt)dBt,X=X和(9)d∏t=ω(Xt)∏t(1- πt)dBt,π=π。这里的创新过程bt:=Ztσ(Xs)dXs-Ztu(Xs)+(u(Xs)- u(Xs))∏sσ(Xs)dsis a(P,FX)-布朗运动和ω(·):=(u(·)- u(·))/σ(·)被称为噪声信号。现在过程(Xt,∏t)t≥0是马尔可夫语,适合外汇。

15
nandehutu2022 在职认证  发表于 2022-6-10 21:47:17
下面,对于(x,π)∈I×(0,1),我们将表示px,π(·):=P(·| X=X,π=π)和Ex,π[·]:=E[·| X=X,π=π]。此外,在(5)中,我们使用Jx,π(τ,γθ)来强调预期博弈收益对初始数据的依赖性。为了将游戏简化为控制和停止游戏,我们引入了zτYt形式的积分-dΓt:=YΓ+Z(0,τ)Yt-dΓt,代表∈ A和Y是一个适合外汇的右连续非负过程。这种类型的积分应在Lebesgue-Stieltjes意义上进行解释,需要注意的是,在这种情况下,过程Γ的(可能的)初始跳跃和终端跳跃都被考虑在内。此外,回顾(4)并使用[34,Prop.4.9,Ch.0],我们得到了zg(Xγ(z))1{γ(z)≤τ}dz=Zτg(Xt)dΓt(10)表示τ∈ T提案3.1。对于(x,π)∈ I×(0,1)和任意(τ,γθ)∈ T×TθRwe haveJx,π(τ,γθ)=Ex,π(1 - Πτ)(1 - Γτ)f(Xτ)+(1- πτ)Zτg(Xt)dΓt(11) +Ex,πΠτ(1 - Γτ)f(Xτ)+∏τZτg(Xt)dΓt,8 TIZIANO DE ANGELIS、ERIK Ekstrom和Kristofer GLOVERwhere(Γ,Γ)∈ A×A是生成γθ的力偶。证据通过定义游戏的支付和定义TθRwe haveJx,π(τ,γθ)=Ex,πf(Xτ)1{τ<γθ}+g(Xγθ)1{γθ≤τ}= Ex,πf(Xτ)1{τ<γ}∩{θ=0}+g(Xγ)1{γ≤τ}∩{θ=0}(12) +Ex,πf(Xτ)1{τ<γ}∩{θ=1}+g(Xγ)1{γ≤τ}∩{θ=1}.为了在上述表达式中使用tower属性,我们声明f(Xτ)1{τ<γ}∩{θ=0}FXτ= (1 - πτ)f(Xτ)(1- Γτ)(13)Ex,πf(Xτ)1{τ<γ}∩{θ=1}FXτ= πτf(Xτ)(1- Γτ)(14)Ex,πg(Xγ)1{γ≤τ}∩{θ=0}FXτ= (1 - πτ)Zτg(Xt)dΓt(15)Ex,πg(Xγ)1{γ≤τ}∩{θ=1}FXτ= πτZτg(Xt)dΓt.(16)取(12)内的条件期望,利用上述表达式,我们得到(11)。因此,只需证明上述公式。

16
mingdashike22 在职认证  发表于 2022-6-10 21:47:20
让我们从注意(17){τ<U}开始 {τ < γ}  {Γτ≤ U} 。由于Xτ是FXτ-可测的,利用条件期望的简单性质和(8)我们得到了X,πf(Xτ)1{τ<γ}∩{θ=0}FXτ= f(Xτ)Px,πτ < γFXτ,θ=0(1 - Πτ).然后,通过定义γ,利用U与θ无关,Γτ是FXτ-可测的,(17),我们还得到px,πτ < γFXτ,θ=0= Px,πΓτ≤ UFXτ,θ=0= (1 - Γτ).将最后两个表达式组合在一起可以得到(13)。显然(14)后面跟着同样的论点。对于(15),我们采用了类似的方法,我们还回顾了(4)和(10)中的γ(u)。那么我们有ex,πg(Xγ)1{γ≤τ}∩{θ=0}FXτ= Ex,πg(Xγ)1{γ≤τ}FXτ,θ=0(1 - πτ)(18)=Ex,πZg(Xγ(z))1{γ(z)≤τ} dz公司FXτ,θ=0(1 - Πτ)= (1 - πτ)Zg(Xγ(z))1{γ(z)≤τ} dz=(1- πτ)Zτg(Xt)dΓt,其中在倒数第二个等式中,我们使用g(Xγ(Z))1{γ(Z)≤τ} FXτ是否可测量所有z≥ 0,最后一个等式为(10)。(16)的证明是类似的。备注3.2。直观地,可以将(11)中的表达式解释为:想象informedplayer宣布她打算使用的FX,θ-随机停止策略Γ;然后,不知情的参与者(或任何其他外部观察者)可以评估与停止时间τ的任何选择相关的预期收益∈ T和任意采样路径T 7→ 基本过程的Xt(ω)。特别是,给定τ∈ T术语(1- πτ)是基于对X路径的观测,直到时间τ,与{θ=0}相关的概率,而(1- Γτ)是当事件{θ=0}发生时,知情玩家在时间τ之前不停止的概率。因此,对于给定ω∈ Ohm, 数量(1- Πτ(ω))(1 - Γτ(ω))表示在事件{θ=0}中,未知情的玩家将在未知情的玩家之前停止的概率。

17
可人4 在职认证  发表于 2022-6-10 21:47:23
对称变元可应用于∏τ(1)项- Γτ),具有不完全和不对称信息的DYNKIN对策9,即在事件{θ=1}中,玩家1在玩家2之前停止的概率。对于每个ω,将两者结合∈ Ohm 玩家1有一个概率(1- Πτ(ω))(1 - Γτ(ω)) + Πτ(ω)(1 - Γτ(ω))在播放器2之前停止并接收f(Xτ(ω))。类似的考虑可应用于积分项。在事件{θ=i},i=0,1时,增量dΓ度量玩家2在(最小)时间间隔内停止的概率【t,t+dt】∈ Ohm, 积分zτg(Xt(ω))dΓit(ω),i=0,1,是在θ(ω)=i的情况下,参与方1在时间τ(ω)之前收到的累积预期收益。在以下情况下,也可以方便地使用似然比过程Φt:=πt/(1- πt),其在P下的动力学由(9)和It^o的公式asdΦtΦt=ω(Xt)(dBt+πtω(Xt)dt),Φ=Д,(19),其中Д=π/(1)- π). 二维扩散(X,Φ)的动力学在一定程度上涉及到P,我们更倾向于使用pi(A):=P(A |θ=i)指定的度量和psp来表示∈ 外汇∞. 众所周知(见【31,第9章】)DPDPFXt=1- ∏t1- π=1+Д1+Φt=exp-Ztω(Xs)∏sds-Ztω(Xs)∏sdBs,(20) dPdPFXt=πtπ=exp-Ztω(Xs)(1- πs)ds+Ztω(Xs)(1- ∏s)dBs,(21)且X和Φ满足(22)dXt=ui(Xt)dt+σ(Xt)dWitdΦt=ω(Xt)ΦtdWt=ω(Xt)Φtdt+ω(Xt)ΦtdWt,其中:-Ztω(Xs)(i)- πs)ds+bt是π布朗运动,对于i=0,1。注意,系统(22)是半解耦的,即X的动力学不依赖于Φ。还要注意Φt=dPdPFXt,用于t∈ [0, ∞),(23)通过(20)和(21)。现在,我们重写了度量值P下的问题。接下来,我们为度量值Pi下的期望设置Ei[·],i=0,1。推论3.3。

18
可人4 在职认证  发表于 2022-6-10 21:47:26
(未知玩家的预期回报。)对于(x,π)∈ I×(0,1)和任意(τ,γθ)∈ T×TθRwe haveJx,π(τ,γθ)=1+ДEx,π(1 - Γτ)f(Xτ)+Zτg(Xt)dΓt(24)+Ex,π(1 - Γτ)Φτf(Xτ)+ZτΦtg(Xt)dΓt,式中,Д=π/(1)- π).10 TIZIANO DE ANGELIS、ERIK Ekstrom和Kristofer GLOVERProof。我们从(11)右侧的第一项开始。对于任意τ∈ T,我们重新定义∏τ=P(θ=1 | Fτ),因此根据塔的性质和Pwe-getE的定义(1 - Πτ)(1 - Γτ)f(Xτ)= E(1 - Γτ)f(Xτ)1{θ=0}(25)=E(1 - Γτ)f(Xτ)|θ=0P(θ=0)=(1- π) E类(1 - Γτ)f(Xτ).通过同样的论证,我们也得出(1 - πτ)Zτg(Xt)dΓt= (1 - π) E类Zτg(Xt)dΓt.对于(11)中的其余条款,我们首先注意到Πτ(1 - Γτ)f(Xτ)= E(1 - Πτ)(1 - Γτ)Φτf(Xτ)= (1 - π) E类(1 - Γτ)Φτf(Xτ).第二,设置gn:=n∧ g和τm:=inf{t≥ 0:∏t≥ m/(m+1)}∧ τ ∧ 我们有πτZτg(Xt)dΓt= 画→∞E∏τZτgn(Xt)dΓt= 画→∞limm公司→∞E∏τmZτmgn(Xt)dΓt其中,第一个等式由单调收敛保持,第二个等式由支配收敛保持。然后,对于固定的n,m>0,我们有∏τmZτmgn(Xt)dΓt= E(1 - πτm)ΦτmZτmgn(Xt)dΓt= (1 - π) E类ΦτmZτmgn(Xt)dΓt,使用与(25)中相同的参数。工艺(Φt∧τm)t≥0是值为(0,m)且大于0的连续P-鞅≤Zτm∧sgn(Xt)dΓt≤ n代表所有s≥ 然后,根据伊藤公式,我们得到ΦτmZτmgn(Xt)dΓt= EZτmΦtgn(Xt)dΓt.后者意味着πτZτg(Xt)dΓt= (1 - π) limn公司→∞limm公司→∞EZτmΦtgn(Xt)dΓt= (1 - π) E类ZτΦtg(Xt)dΓt通过单调收敛。结合上述表达式,我们在注意到1后得到(24)- π = (1 + φ)-1.(24)中的表达式具有与备注3.2中解释的相同的直观含义,但用相似比代替概率∏τ和1- Πτ. 下一个推论类似地在(11)右侧的第一项和第二项中分别使用(20)和(21)。推论3.4。

19
kedemingshi 在职认证  发表于 2022-6-10 21:47:29
(知情玩家的预期成本。)对于(x,π)∈ I×(0,1)和任意(τ,γθ)∈ T×TθRwe haveJx,π(τ,γθ)=(1- π) Jx,π(τ,Γ)+πJx,π(τ,Γ),(26),其中Jx,π(τ,Γ):=Ex,π(1 - Γτ)f(Xτ)+Zτg(Xt)dΓt(27)信息不完全和不对称的DYNKIN对策11andJx,π(τ,Γ):=Ex,π(1 - Γτ)f(Xτ)+Zτg(Xt)dΓt.(28)备注3.5。(26)中的表达式对函数Jx,π提供了以下解释。想象一下,在游戏开始之前(即时间t=0-), 两个玩家都不知道θ。然而,他们都知道,一旦游戏开始(即,在时间t=0时),玩家2将了解θ的真实值。然后,我们可以认为Jx,π是t=0时两个参与者的预期报酬- (给定随机停止对(τ,γθ))。正如人们在这种情况下所期望的那样,t=0时的支付- 是根据两种可能情况下(游戏的预期支付)支付θ的先验分布得出的平均值。当游戏在时间t=0开始时,知情玩家的收益“崩溃”为Jx,π或Jx,π,因为她知道θ的真实值。相反,第1层的预期收益仍然是Jx,π。这种情况对应于游戏的临时版本,即在知情玩家获得信息之后。值得注意的是,文献中关于具有连续时间动力学的非对称博弈的许多论文(参见,例如,[6,7,22,23])仅使用payoffjx,π进行分析。在这些论文中,游戏的“价值”在我们的设置中对应于中间游戏中未知情玩家的预期均衡支付,或者,相当于事前游戏的价值。现在,我们来讨论游戏预期收益的最终公式,这也是我们发现最适合我们的求解方法的公式。

20
能者818 在职认证  发表于 2022-6-10 21:47:32
对于(τ,γθ)∈ T×TθRandД=π/(1)- π) ,设usdenotebJx,Д(τ,γθ):=(1+Д)Jx,π(τ,γθ)。(29)下一个结果将事先版本的游戏的鞍点与其临时版本的纳什均衡联系起来(与[24]中的精神相同)。提案3.6。Let(x,ν)∈ 给出I×R+。随机停止对(τ*, γ*θ) ∈ 事前博弈中的T×TθRisa鞍点(定义2.4)当且仅当它是代理形式博弈中的纳什均衡。也就是说,当且仅当*,0, Γ*,1) ∈ A×A是生成γ的偶*θ、 我们有(30)Jx,ν(τ*, Γ*,0) ≤ Jx,Д(τ*, Γ),(31)Jx,Д(τ)*, Γ*,1) ≤ Jx,Д(τ*, Γ)和(32)bJx,Д(τ,γ*θ) ≤bJx,Д(τ*, γ*θ) 对于所有随机停止对(τ,Γ)∈ T×Aθ。证据我们从(26)中得出,ρ(τ,γθ)=Jx,Д(τ,Γ)+ДJx,Д(τ,Γ)。(33)由此可知,知情玩家的策略Γ=(Γ,Γ)最小化Sbjx,Д(τ*, γθ)当且仅当Γ和Γ最小化Jx,Д(τ*, Γ)和Jx,Д(τ*, Γ),分别。相反,条件(32)与定义2.4中的相同。对于纳什均衡(τ*, γ*θ) 我们参考tobJx,Д(τ*, γ*θ) ,Jx,Д(τ*, Γ*,0)和Jx,Д(τ*, Γ*,1) 作为相应的平衡报酬s.12 TIZIANO DE ANGELIS,ERIK Ekstrom和Kristofer GLOVERRemark 3.7。我们观察到,命题3.6将这场游戏解释为一名门将和两名控制员之间的三人非零和游戏。请注意,挡块同时对两个控制器进行比赛,而每个控制器仅对挡块进行比赛。这与不完全信息博弈的经典结果是一致的(见[24]或[1])。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 05:19