楼主: 能者818
2477 78

[量化金融] 随机时间博弈中的对称均衡 [推广有奖]

21
kedemingshi 在职认证  发表于 2022-5-8 14:05:27
此外,如果Gθi被任何可行(非平凡)的αθi证明所扩展,则不等式仍然成立:见附录B.1。引理3.1意味着我们可以在定义2.7的意义上谈论纯混合策略或标准混合策略中的均衡,即允许偏离任意扩展的混合策略,但只考虑其他目的或标准混合策略。具体而言,引理3.1表明Gθi将是对Gθjif的最佳回复,且仅当对于任何停止时间τ*dGθi(τ)*) > 它保存着一个星期Sθi(τ)*)Fθ≥ ESθi(τ)Fθ总之τ∈ 带τ的T≥ θ这意味着Sθ是可测量的w.r.t.产品空间上的可选σ字段Ohm 由所有正确的连续适应过程或等效的随机区间[0,τ),τ生成∈ TFubini定理的一个应用,由于引理A.1给出了可积性,特别是在z[0,∞)1.- θi(s)FsdGθj(s)=Z[0,∞)Z[0,∞]{t>s}dGθi(t)FsdGθj(s)=Z[0,∞]Z[0,∞){s<t}FsdGθj(s)dGθi(t)=Z[0,∞]Z[0,t)FsdGθj(s)dGθi(t)∈ L(P)。这意味着Gθi(t)>Gθi(τ)-) 对于所有t>τa.s.(详见附录B.1中定理5.1的证明)。因此,我们通常需要解决引理3.1中右侧的停止pr问题。时间连续博弈的一个核心方面是其固有的不连续性,即使基础数据(这里的L、F和M)是连续的。例如,从Sθiin(3.1)的定义可以清楚地看出,当F>M时,最佳回复不能有任何联合质量点,因为Sθi(t+)- Sθi(t)=Gθj(t)英尺- Mt通过L和Gθj的右连续性;这将是一场经常发生的争论。根据Gθj,不需要存在任何实际确定问题值的停止时间,因为Sθi可能有各种各样的不连续性。

22
大多数88 在职认证  发表于 2022-5-8 14:05:30
处理这种不连续性将是主要问题之一。在下一小节中,我们介绍了连续时间最优停止的一般理论中的一些关键事实,特别是提供了最优停止时间存在的充分(基本必要)条件及其在斯奈尔包络中的表征。后者实际上是我们推导和表示混合均衡策略的主要工具。3.1连续时间内的最优停止作为一个激励停止问题,为了提出该理论,考虑何时以最佳方式成为领导者的单边问题,即,支持对手永远不会移动。这个问题将在以下方面发挥重要作用。如何刻画最优停止问题vl(0):=ess supτ的解,这一点已经得到了很好的证明∈TELτ假设2.1。事实上,我们的支付过程L是右连续的(因此是可选的,参见fn.21)且属于(D)类,因此我们可以应用最佳停止的一般理论,如Mertens(1972)和Bisit and Skalli(1977):存在一个最小的超鞅来控制支付过程L,称为L的斯奈尔包络,它满足(θess supτ)∈T:τ≥θELτFθa、 s.(3.4)适用于所有停车时间θ∈ T特别地,UL(0)=VL(0)。我们注意到,对于任何θ,都可以很好地定义(3.4)的右侧∈ 但关键是存在一个行为良好的进程UL=(UL(T))T≥0可以在任何停止时间θ进行计算,从而知道连续值。根据动态规划原理,我们还需要考虑停止时刻的连续性问题;后者是可行的量,但比确定性的时间要多得多。留在游戏框架内,找到1{t给出的(纯)最佳回复≥∞}, 我们必须使用报酬∞感谢你没有在限定时间内停下来。

23
kedemingshi 在职认证  发表于 2022-5-8 14:05:34
还记得我们的约定吗∞≡ M∞, 然而现在ULI也是类(d)的可选和d,这样的超鞅具有非常方便的正则性:存在Doob Meyer分解ul=ML- 我们广泛使用的,一致可积的,右连续的鞅和一个非减量的,可预测的,可积的过程。后者可以被解释为衡量因停得太晚而造成的预期损失:如果我们忽略在任何τ之前停下来∈ T,那么我们不能得到超过E[UL(τ)]=UL(0)- E[DL(τ)],即使我们从τ开始以最佳方式停止。根据动力学程序设计原理,只要存在未来时间τ,值过程就是一个鞅∈ T给出至少与立即停止相同的期望值。是否存在最优停止时间取决于DL的连续性。如果L在预期中是上半连续的(如假设2.1(iii)如果L≤ 那么DLA有左连续的路径a.s。通过L的右连续性,DLA将是偶数连续的。对于左连续DL,存在最佳停止时间τ*L(θ):=infT≥ θUL(t)=Lt和τ**L(θ):=infT≥ θDL(t)>DL(θ-). (3.5)它们分别是θ之后最小和最大的停车时间∈ T达到(θ)=EhLτ*L(θ)Fθi=EhLτ**L(θ)Fθia。s、 (3.6)因此,通过最优性,它必须保持UL=L a.s.在DL的任何增加点,w hichSee Mertens(1972),Théorème T4的存在性和Théorème T5,以及类(D)存在的证明。见梅尔滕(1972),泰奥雷梅T3。因此,关键的可选抽样是:对于所有σ,ML(σ)=E[ML(τ)|Fσ]≤ τ ∈ T此外,mls还有最后一个元素ML(∞) 它在L(P)中收敛。见Bibiut and Skalli(1977),泰奥雷梅二世。2.证据。

24
能者818 在职认证  发表于 2022-5-8 14:05:38
期望中的(半)连续性通常比左边相应的路径属性弱。我们的支付过程不一定是积极的。然而,如果L是可选的,并且属于(D)类,那么它的负部分L也是一样的-:= 麦克斯(-五十、 0),因此有一个斯奈尔信封-= 毫升-- DL-分解为一致可积右连续鞅ML-一个可积的递增过程-. 然后-- L-≥ 0,表示L+ML-≥ 0.添加鞅ML-既不影响L是可选的(D类)或(半)连续的预期效果,也不影响L的任何最佳停止时间。见Bibiut和Sk alli(1977),(2.15),其中支付过程的正确连续性实际上意味着Z+=X。例如:L不是上半连续的=> inf{DL>0}不是最优的。MLLDLMLLSEE Birit and Skalli(1977),泰奥雷梅二世。3.事实上意味着[0,∞](UL(t)- Lt)dDL(t)=0 a.s.(3.7)4纯策略在具有系统s.F.优势的对称对策中的均衡≥ 五十、 在纯策略中确定某些子博弈完美均衡是很简单的。比如说,玩家j必须很晚才停下来,这样我就能解决第3节中提到的临时停L的问题。1.然而,我们在本节中表明,这种纯战略均衡通常会导致不对称支付。玩家各自的角色必须在游戏开始前确定,相应地,谁获得更高的报酬。在我们随后将考虑的混合策略中,获得了具有对称支付的均衡,不会在模型之外产生其他战略冲突。为了支持纯粹的策略均衡而迟到的停止不一定是“永远”:只要停止L是最优的,玩家i就不值得等到J停止,然后才成为跟随者。

25
何人来此 在职认证  发表于 2022-5-8 14:05:41
这将是一种情况,例如,如果j仅在nf=L时停止,比如在τj处≡ ∞.因此,easies t的例子是Gθj由1{t驱动=∞}和Gθiby 1{t≥τ*L(θ)}表示每个θ∈ T,或与τ一致**L(θ)在(3.5)中定义。无论哪种情况,等待对[0]上的playerj来说都是最佳选择,∞), 因为严格来说,在最佳停止时间之前实现L从来都不是更好的,而且F在两个τ处都支配L*L(θ)和τ**L(θ)。基于同样的逻辑,也可能有相当复杂的模式,但玩家可以在子游戏中切换角色。这可以用例子2.3中的结构来最好地说明,其中跟随者的最佳停止时间在平衡时“非常晚”。然而,争论更为普遍:被利用的属性是≥ L≥ 而F是一个超级艺术家,也就是说,越早成为追随者越好。然后根据τ确定最佳的停止时间*L(θ)on(对于任何Gθj)都足够了。引理4.1。反F≥ L≥ M,F是一个超鞅。对任何人来说θ∈ T,标准混合策略Gθjin对应的子对策,以及停止时间τi≥ θ它认为θτi∨ τ*L(θ)+费伊≥ EhSθiτiFθiand对于L的右连续和上半连续,期望DLI是连续的,因此它从ML开始右连续。然后,通过(3.5),(3.6)和UL的右连续- 五十、 inf{t∈ R+| Rt{UL-L≥ε} dDL>0}=∞ a、 s.对于任何ε>0,即UL- L<εdDL-a.e.,概率为1,暗示索赔。(3.7)在UL没有正确连续性的情况下仍然保持- 五十、 只要L在期望中是上半连续的;见附录九中的备注B.1。这些也分阶段进行,具有典型市场进入游戏的后发优势;见Steg(2018)。EhSθiτ*L(θ)+费伊≥ 弹流润滑τ*L(θ)Fθia。s、 所以,如果一个停止时间τ*我≥ τ*L(θ)达到ess supτ≥ τ*L(θ)E[Sθi(τ)|Fτ*L(θ)],那么它也达到[Sθi(τ)*i) |Fθ]=ess supτ≥ θE[Sθi(τ)|Fθ]≥ E[Lτ*L(θ)|Fθ]。

26
nandehutu2022 在职认证  发表于 2022-5-8 14:05:46
所有索赔也适用于τ**而不是L(θ)。证据:见附录B.1。请注意,F的超可压缩性对结果很重要,以确保在达到L的最佳值之前成为跟随者的情况下获得相对较高的回报。值得注意的是,对于L和F来说,未来的停车时间甚至会更好≥ L:如果Gθjputs质量在θ和τ之间*L(θ),当F仍然占主导地位,但当两者都非常低时,由于在等待L的最佳状态时有成为跟随者的风险,因此可能值得确保当前的支付。另一个条件是,L是次马丁格尔[θ,τ*L(θ)]。在例2.3中,L=R·πDds是双寡头的支付过程。然后,跟随者问题中的最优停止时间足够晚,以支持一个均衡:当直接退出是最优的时候,成为跟随者(垄断者)的前景没有价值,当πd出现不可持续的损失时,它将导致放弃——在τ*L(θ)。事实上,作为m onopolist stopsR·πMds与πm≥ πD,最佳停车时间满足τF(θ)≥ τ*L(θ)。此外,它认为F=L=ma.s.在τF(θ)处,因此特别是在{τ上同时停止是可行的*L(θ)=τF(θ)}乘以F=M。这些性质产生了一系列具有不同角色的均衡,由τ处的事件C决定*L(θ)。4.2号提案。假设F≥ L≥ M,F是一个超鞅。

27
kedemingshi 在职认证  发表于 2022-5-8 14:05:50
让θ∈ T并考虑停止时间τF(θ)≥ τ*L(θ)a.s.,使得在τF(θ)处,我们有F=L,更具体地说,在{τF(θ)=τ上有F=M*L(θ)}(a.s.)——例如τF(θ):=inf{t≥ θFt=Mt}。然后,对于任何给定的事件C∈ Fτ*L(θ),对应于τ的纯策略*= τ*L(θ)1{C}+τF(θ)1{Cc}和τ*= τ*L(θ)1{Cc}+τF(θ)1{C}在从θ开始的子对策中形成一个平衡。证据:见附录B.1。纯策略中的均衡通常涉及不对称支付,例如,如果τ处F>L*L(θ)在我们指定的游戏中。因此,在游戏开始之前会出现一个协调问题,每个玩家最终都希望成为跟随者。在命题4.2的均衡中,这个p问题甚至会加剧,在这个命题中,角色可能会在子博弈中产生摩擦。由于这个原因,这样的均衡也很难聚合为一个子博弈完美均衡:每个子博弈从某个θ开始∈ T,事件C∈ Fτ*L(θ)必须达成一致,以确定各自的角色。也许更重要的是,没有一个玩家可以通过采取或威胁采取某种行动来获得首选的低回报,但只有通过长时间不采取行动的方式,这必须促使对手停止。有效地,玩家在不采取行动的可信度上竞争。这样的问题可以通过允许混合策略来避免,使玩家在停止时对角色不感兴趣。这是我们接下来的主题。5混合策略中的均衡斯奈尔包络线的普遍原理允许我们在一般情况下构建混合策略中的均衡。但我们不仅获得了存在:平衡策略可以像斯奈尔包络本身一样清楚地解释。

28
能者818 在职认证  发表于 2022-5-8 14:05:53
回想一下,补偿与因停得太晚而造成的预期损失有关。对称博弈中下列均衡的逻辑是:≥ 五十、 但是如果没有引理4.1的其他条件,那么等待真正的最优时间来停止L并不一定总是最优的。尽管如此,玩家们还是有动力和可能性在等待中进行合作,这可以延长到最新的最佳时间来停止L,τ**L(θ)。然而,为了跨越这一点,任何球员都必须有机会在F>L时成为跟随者,因为否则任何延迟都将是绝对错误的。当然,对手必须愿意提供这样的机会,所以我们确定了合适的比率来精确补偿即将到来的损失dDL>0,并使两个玩家都有所不同。然而,当L>F时,这个原则不起作用,因为p赎回激励,玩家想要更强烈地停止(见第7节)。另一方面,即使我们考虑的是没有先发优势的博弈,也可能存在更高对称收益的均衡——如果在未来某个时间,同时停止是可行且有效的,正是当≥ F>L.出于这些原因,我们需要推广玩家合作的适当支付流程。定理5.1。让θ,τθ∈ 不要用τθ停止时间∈ [θ,inf{t≥ θLt>Ft}]a.s.通过Lτθt:=1{t<τθLt+1{t来定义辅助过程Lτθ≥τθ}max(Fτθ,Mτθ),让Dτθlde注意其Snell包络的compensator和τθi:=inf{t≥ θR[θ,t]{F≤五十} dDτθL>0}∧ τθ.然后在子博弈中存在一个从θ开始的支付对称均衡,标准混合策略由gθi(t)=1给出- 1{t<τθi}exp-Ztθ{Fs>Ls}dDτθL(s)Fs- Ls(5.1)和gθj(t)=1- 1{t<τθ}exp-Ztθ{Fs>Ls}dDτθL(s)Fs- Ls(5.2)对于i,j∈ {1,2},i6=j,当且仅当ifa.s。

29
何人来此 在职认证  发表于 2022-5-8 14:05:57
Gθi(M)- F)≤ 0在τθ离子{τθi<τθi}和Gθi(M)- F)≥ 在τθ处为0。此外,当且仅当a.s。Gθi(M)- F)≥ 在τθi上为0,在{τθi<τθ}上等于Gθi(τθi)<1。证据:见附录B.1。关于{Lθ>Fθ},τθ=θ,和Mθ≥ Fθ需要支持同时停止。关于{Fθ≥ Lθ},τθ处的“终端条件”是矛盾的,但它起以下作用。首先考虑Gθi(τθ)>0,因此τθi=τθ,存在关节末端跳跃。这意味着玩家在终端支付上进行协调,这同样需要Mτθ≥ Fτθ(其中m∞= F∞按惯例)。Gθi也可以跳到τθ之前:当F=L且dDτθθL>0时,这样就不可能进行补偿。当游戏者i停止时,我们保持Gθj连续处理F=L>M的情况,因此支付是对称的。然而,这种选择只能是非平衡的,如果真的是F≥ M.否则,玩家j可以通过在τθi打顶获得更高的回报,并且之前不支持均衡,但我们可以调整τθ以确保合适的连续值。最后,如果Gθi连续获得值1,则Gθj(t)=Gθi(t)代表所有t∈ R+。这种情况是用max(Fτθ,Mτθ)定义Lτθ的一个原因:那么Gθi(M)- F)≥ 0在τθby持有Gθi=0,这允许Lτθ具有终端值Fτθ>Mτθ,并影响之前的连续值。另一个原因是,在第7节中考虑扩展混合策略时,我们将获得Payoff max(Fτθ,Mτθ)的连续均衡。除了可能的终端跳跃,定理5.1中的策略是连续的。

30
大多数88 在职认证  发表于 2022-5-8 14:06:00
在给定适当的过程Lτθ之前,对手的停止率dDτθL/(F)-L)在确保L的当前值似乎是最佳的情况下,使每个玩家都不一样。放弃它的预期损失由获得F>L的概率精确补偿。由此产生的平衡支付由Vθi(Gθi,Gθj)=Vθj(Gθj,Gθi)=ess supτ给出∈T:τ≥θEh{τ<τ}Lτ+1{τ≥τθ}max(Fτθ,Mτθ)Fθi=:UτθL(θ),分别为。,如果两个玩家都使用Gθi,这是一个平衡,byVθi(Gθi,Gθi)=UτθθL(θ)+Eh{τi<τθ}{Gi(τi)>0}Mτi- FτiFθi.可以使用延迟第一次变得昂贵的时间来重写这些数据,用τ表示**L(θ):=inf{t≥ θDτθL(t)>DτθL(t)};参见(3.6)。然后Vθi(Gθi,Gθj)=E[~Lθτθτ)**~L(θ)Fθ]和vθi(Gθi,Gθi)=Eh ~Lττττ**L(θ)+1{τ**L(θ)<τθ}∩{Lτ**L(θ)=Fτ**~L(θ)}Mτ**L(θ)-~Lτθτ**L(θ)定理5.1的基础是鞅参数。一个重要的方面是注意策略中不同类型的跳跃,并确保潜在的支付过程Lτθ具有必要的属性(例如,DτθLis连续)。此外,当连续停止h出现时,这可能与时间(dt)有关,如第6节中的显式布朗示例中所示,但不一定如此,连续策略也会对测量零点的时间点集收费。如果Lor F是[θ,τθ]上的(子)鞅,那么当前的均衡策略是微不足道的——假设端点是可行的;那么等待和dDτθL就没有损失≡ 0、备注5.2。如果L仅从右(和左)上半连续,则DL——因此Gθi——可能会发生跳跃。在定理5.1中,等待至少和获得L一样好,并且DL的增加不会有差异。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-1 12:26