楼主: nandehutu2022
1278 60

[量化金融] 随机切换博弈 [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-6-10 06:40:13 |只看作者 |坛友微信交流群
在给定策略文件(α,α)的情况下,(Mt)的演化被认为是asMt:=~Mη(t),η(t)=max{n≥ 0:σn≤ t} 。(4) 一个参与者立即行动是完全可能和可行的,τi(n)=σn-1,其中σn=σn-1,因此(Mt)正式同时理解多个更改。此外,我们描述了每个玩家实现的切换时间序列,用σik表示,i∈ {1,2},k≥ 1表示σik:=ση(i,k),其中η(i,k)=min{n≥ 1:nXl=1{Pl=i}=k}。(5) 2.2游戏报酬这些玩家收到的游戏报酬是未来利润的总净现值(NPV),即折现的预期未来现金流,以折现的转换成本为单位。定义2.4。(游戏报酬)给定一个战略利润(α,α),玩家i收到的未来利润NPV为Jim(x;α,α):=E“Z∞e-rtπiXt,~Mη(t)dt公司-∞Xn=1{Pn=i}e-rσn·KiXσn,~Mn-1.X=X,M=M#,=E“Z∞e-rtπiXt,Mtdt公司-Xke公司-rσikKiXσik,~Mη(i,k)-1.X=X,M=M#(6),其中r>0是恒定贴现率。让我们介绍静态贴现未来现金流Dim(x):=EZ∞e-rtπi(Xt,m)dtX=X, (7) 假设满足生长条件Dim(x)≤ C(1+| x |)表示i∈ {1,2}和allm∈ M、 由于转换成本是非负的,博弈报酬也是线性增长的,因为它们由Di主导,特别是Jm(x)≤ Dm(x)而Jm(x)≤ Dm(x)。2.3纳什均衡:最佳响应的不动点在这个非零和博弈中,我们利用马尔可夫纳什均衡(MNE)来描述玩家的行为。定义2.5。(纳什均衡)让Jim(x,·)表示玩家i在x=x,M=M的情况下收到的游戏报酬。策略利润(α1,*, α2,*) ∈ 如果对于任何x,A被认为是切换博弈的纳什均衡∈ D、 m级∈ M和游戏者i的策略αi(x),使得(αi(x),αj,*) 是可容许的Jim(x;αi(x),αj,*) ≤ Jim(x;αi,*, αj,*).

使用道具

12
能者818 在职认证  发表于 2022-6-10 06:40:16 |只看作者 |坛友微信交流群
(8) 相应的Vim(x):=Jim(x;αi,*, αj,*) 然后被命名为playeri的平衡支付。纳什均衡标准(8)将均衡策略描述为每个玩家对其对手策略的最佳反应的固定点。具体而言,给定任意竞争对手的策略αjd,确定玩家ieVim(x;αj)的最佳响应结果:=sup{αi:(αi,αj)∈A} Jim(x;αi,αj),x∈ D、 m级∈ M、 (9)因为(以玩家1为例)游戏支付满足Dm(x)≥eVm(x;α)≥ Jm(x;(R)α,α)≥Dm(x),这样的最佳响应值总是很明确的。平衡支付满足:Vim(x)=eVim(x;αj,*), 我∈ {1,2},j 6=i.(10)3构造平衡我们现在关注一类特殊的策略,它是平稳的,是阈值类型,并允许我们显式构造MNE。为此,需要两个关键属性。首先,必须证明这类策略在最佳反应图(9)下是封闭的。其次,需要使用平均定理来证明(10)的最终固定点(通过方程系统定义)确实是游戏的一个MNE。该计划从第3.1节开始,我们定义了阈值型策略,然后描述了对此类策略的最佳响应,作为耦合最优停止问题系统的解决方案。接下来,在第3.3节中,我们陈述了验证定理,该定理为平衡阈值向量s1提供了一个非线性方程组,*, s2,*. 最后,在第3.4节中,我们研究了新兴的平衡宏观状态M*.3.1平稳和阈值型策略【8,第3章】中定义的时间平稳马尔可夫策略,也称为反馈完美状态(FPS),仅取决于当前的XT和Mη(t)。根据[1]中类似结构的id ea,我们定义了参与者i的结构∈ {1,2}通过αi:=Γimm级∈M、 其中,Γim\'s是D的固定子集。

使用道具

13
kedemingshi 在职认证  发表于 2022-6-10 06:40:19 |只看作者 |坛友微信交流群
给定一个策略文件(α,α),一系列开关被唯一确定如下:-当en Mt=m时,玩家i采用(反馈)开关区域Γim:玩家i在第一次命中时间τimof(Xt)到Γim(假设空集的命中时间为∞);— 如果两个玩家都想切换,则玩家1具有优先权。定义2.3中战略文件(α,α)的可接受性现在降低到-Γm=Γm= (公吨∈ M) -ΓM∩Γm+1= 对于m<m和dΓm-1.∩Γm= 对于m>m。这排除了simu ltaneousswitching循环;例如,如果有一个x∈ Γm∩Γm+1当在区域m中启动时,我们会让P1切换到m+1,但P2会立即切换回m,从而生成一个有限的瞬时切换序列。根据由此产生的阈值型策略的马尔可夫结构,我们重新审视了正式的博弈演化,现在可以使用独立的辅助副本X(n),n=1,在下面的强马尔可夫X中,XX表示在X=X时开始的X过程。让X∈ D、 m级∈ M、 和战略文件(α,α)∈ A、 为n设置σ=0、X=X和▄M=M≥ 0,定义X(n)t=Xxσn+t,对于t≥ 0,(11a)~τi,n=inf{s≥ 0:¢X(n)s∈ ΓiMn},i∈ {1,2},(11b)σn+1=σn+τ1,n∧ τ2,n,(11c)Pn+1=1·1{τ1,n<τ2,n}+2·1{τ1,n>τ2,n}+Hn+1{τ1,n=~τ2,n},(11d)Mn+1=~Mn+1·1{Pn+1=1}- 1·1{Pn+1=2}。(11e)然后是(Mt)的演变和每个玩家的切换时间序列(σik)k≥1按照(4)和(5)中的规定重新获得。X的强马尔可夫性质意味着每个▄X(n)可以被视为X的一个新的(独立的)拷贝,从▄X(n)=Xxσn开始。

使用道具

14
可人4 在职认证  发表于 2022-6-10 06:40:22 |只看作者 |坛友微信交流群
因此,根据这些球员的策略,这对搭档(Xt,Mt)是马尔可夫的。回想一下,玩家1喜欢高XT和大Mt,而玩家2喜欢相反的结果;因此,很自然地假设,当X变得足够高时,P1向上切换,当X变得足够低时,p2向下切换。定义3.1。(Thre shold类型策略)让si:=(sim)m∈Mbe一个向量,用于刻画游戏者i的切换区域Γimo的D子集∈ {1,2}根据Γm≡ Γm(s):=[sm,d),和Γm≡ Γm(s):=(d,sm)。(12)与(Γim)m相关的策略∈阈值类型的错误调用,由si表示。在图1中,我们根据与我们的一个案例研究相关的阈值型策略勾勒出了正在出现的均衡。每当进程(Xt)到达th ethreshold s1时,玩家会进行切换,*mfrom低于或s2,*m在m阶段时,从上面看,请参见底部图中的虚线。切换时间σi通过各自的命中时间来描述。顶部p和el显示生成的宏观阶段(M*t) 由σik沿当地市场波动(Xt)的一条已实现轨迹驱动。这些球员一开始“实力相当”,M*= 0; 当(Xt)下降时,它首先进入玩家2的切换区域(τ(1)<τ(1)),引导她进行切换并改变M*σ= -然后,玩家递归地等待(Xt)达到阈值s1,*-1或2,*-1(τ(2) ∧ τ(2)),以进行进一步的切换。请注意,在上述定义中,我们要求Γim连接,以便它们通过其边界sim来进一步表征。反过来,阈值型策略允许从查看由GeneralΓim定义的非结构化(在优化意义上)切换策略转移到搜索由| M |向量s,s参数化的平衡。特别是,这将MNE的搜索减少到2 | M |维设置,从而可以进行数值解析。

使用道具

15
能者818 在职认证  发表于 2022-6-10 06:40:25 |只看作者 |坛友微信交流群
为了实现这一目标,本节的主要目的是建设性地找到这种阈值平衡。备注2。(边界阶段)回想一下,定义2.3隐含层1(分别为玩家2)中定义的可接受策略无法在阶段(尤其是m阶段)进行任何切换。就阈值型策略而言,这相当于简单地将sm=d和sm=d视为对可能的容许控制的约束。给定阈值型策略αj≡ 对于参与者j,我们期望参与者i的最佳响应策略始终是阈值类型(见推论3.5)。动态编程原理(DPP)意味着(9)中定义的相应值函数eVi(·;sj)可以解决耦合停车问题(见[4])。即让τm:=τm∧ τm(带τjm-2.-1012阶段0 5 10 15 20 25 30-4.-2024tStateFigure 1:X和平衡M的轨迹*从X=0开始,M*= 这里是Ornstein-Uhlenbeck过程,M={-2.-1, 0, 1, 2}. 均衡策略为门限型;底图中的虚线表示相应的switchingthresholds sim。因此,切换次数σn等于上述的命中次数。根据sj),我们预计EVIM(x;sj)=supτim∈TEx“Zτme-rtπim(Xt)dt+e-rτm{τm>τm}埃维姆-1(Xτm;sj)- 1{i=2}Kim(Xτm)+ e-rτm{τm<τm}eVim+1(Xτm;sj)- 1{i=1}Kim(Xτm)+ e-rτm{τm=τm}eVim+1(Xτim;sj)- 1{i=1}Kim(Xτim)#, (13) 对于i∈ {1,2},j 6=i,x个∈ D和所有m∈ M、 T以上表示所有F停止时间,但预计最佳值τimis与阈值sim相关。我们使用速记符号Ex[·]:=E[·| X=X],下标ineVimto表示M=M上的条件。直觉上,在M区域,玩家i实施计时策略以在τim处行使控制权,实现这两个停止时间会产生一个“领导者”,首先行动,然后切换MτM。

使用道具

16
大多数88 在职认证  发表于 2022-6-10 06:40:28 |只看作者 |坛友微信交流群
注意,在{τ=τ}的情况下,播放器1具有切换的优先级。为了接近耦合系统(13),我们首先考虑相应的通用局部约束最优停止问题(该问题通过remov Ingeim解耦(13-1,eVim+1来自右侧),然后是以对sj的最佳响应为特征的博弈均衡,*. 有关无约束最优切换问题的相关分析,请参见[4]。3.2构建块为了找到参与者i的最佳响应,我们考虑了一个局部最优停止问题f形式vi(x;τj)=supτi∈TExh{τi<τj}e-rτihi(Xτi)+1{τi>τj}e-rτjli(Xτj)+1{τi=τj}e-rτigi(Xτi)i,(14)其中τjis是给定的停止时间,hi(·)是在τj之前切换的领先者支付,li(·)是在τj之后切换的跟随者支付。gi(·)表示两个玩家想要同时切换时,玩家i的支付。在OUR设置中,g=h,而g=L取决于播放器1的优先级。为了获得阈值类型的平衡,我们期望优化器(14),?τito为阈值类型,给定τjis为thr-eshold类型。然而,正如在[2]中详细讨论的那样,这并不总是正确的。如果玩家j表现得咄咄逼人,则玩家i会试图抢先一步,导致缺乏最佳τi假设3.2。(i) 阈值类型的外部停止时间τjis,τj:=inf{t≥ 0:Xt∈ Γj},j∈ {1,2},其中Γ:=[s,d)和Γ:=(d,s)]。(ii)附录A中定义了两个函数类,即h∈ Hincand h∈ Hdec。(iii)球员i没有动机在sj抢先,即hi(sj)<li(sj)。在上述假设下,已知(14)的解是阈值型的。具体而言,这可以使用最小凹主方法建立,参见例如[2,14,15]。让我们注意到,假设3.2(iii)对于这一结果至关重要,并且很难在续集中验证。

使用道具

17
可人4 在职认证  发表于 2022-6-10 06:40:31 |只看作者 |坛友微信交流群
尽管如此,如果假设3.2的其余部分已完成,则存在先发制人的最佳响应,请参见【2】。提案3.3。假设假设3.2的所有条件都满足。让F,G为(L)的解- r) u=0,其中L是X的最小值。SetW(X,X):=F′(X)G(X)- F(x)G′(x)(15)W(x,x):=F(x)G(x)- F(x)G(x)。(16) 然后(14)的值函数被接受为asevi(x;τj)=hi(x),对于x∈ Γi,li(x),对于x∈ Γj,eωiF(x)+eνiG(x),对于x∈ D\\Γi∪ Γj,其中,最佳停止区域Γi=Γ(Γsi)为阈值类型,并通过阈值Γsi:=Γsi(sj)(其中Γs>砂Γs<s)唯一定义,以满足eshi(Γsi)W(Γsi,sj)- li(sj)W(▄si,▄si)- (hi)′(~si)W(~si,sj)=0。(17) 系数eωi:=eωi(~si,sj)和eνi:=eνi(~si,sj)定义为ωi=高(~si)G(sj)- li(sj)G(~si)W(~si,sj),eνi=li(sj)F(~si)- 高(▄si)F(sj)W(▄si,sj)。(18) 备注3。上述命题包含了只有一个玩家能够行动的情况。在这种情况下,我们可以简单地取s=d或s=d,然后,作为(14)的特例,播放器i有效地解决了标准最优停止问题。参见【2,Sec4.1】中的相关讨论。这些情况出现在与(13)相关的边界级m、m中。3.3最佳响应验证理论通过在定义2.5中构建跨国公司,与均衡相关的博弈支付和阈值型策略必然解决(13)中所述的局部优化问题。此外,它们必然是每个模式m中以下一对优化问题的固定点:Vm(x)=supτm∈TEx“Zτme-rtπm(Xt)dt+e-rτm{τm>τ2,*m}虚拟机-1(Xτ2,*m)+e-rτm{τm≤τ2,*m}Vm+1(Xτm)- Km(Xτm)#,Vm(x)=supτm∈TEx“Zτme-rtπm(Xt)dt+e-rτm{τ1,*m> τm}虚拟机-1(Xτm)- Km(Xτm)+e-rτm{τ1,*m级≤τm}Vm+1(Xτ1,*m)#,(19) 式中,τ1,*m、 τ2,*记录与阈值s1相关的停止时间,*m、 s2,*m。

使用道具

18
何人来此 在职认证  发表于 2022-6-10 06:40:34 |只看作者 |坛友微信交流群
与(14)中的一般问题进行比较,并减去Dim(x)=ExR∞e-rtπim(Xs)dt, 然后我们希望设置(hm(x):=Vm+1(x)- Dm(x)- Km(x),lm(x):=Vm-1(x)- Dm(x),(hm(x):=Vm-1(x)- Dm(x)- Km(x),lm(x):=Vm+1(x)- Dm(x)。(20) 将上述公式插入(17)和(18)中,对所有m进行组合,我们得到了sim中的耦合非线性系统ωim,νim,其解有望成为交换博弈的MNE。Wenow提出了一个验证定理,证实了事实确实如此。我们在附录B中的证明遵循了[1]中的方法,这些方法考虑了具有imp-ulsecontrols的非零和对策。定理3.4(验证定理)。让Γ1,*m: =[s1,*m、 d),Γ2,*m: =(d,s2,*m] ,s1,*m> s2,*mandωm≥ 0,ωm≤ 0,νm≤ 0,νm≥ 0、定义(x)=Vm+1(x)- Km(x),对于x∈ Γ1,*m、 虚拟机-1(x),对于x∈ Γ2,*m、 Dm(x)+ωmF(x)+νmG(x),对于x∈ D\\Γ1,*m级∪ Γ2,*m级,(21a)Vm(x)=Vm+1(x),对于x∈ Γ1,*m、 虚拟机-1(x)- Km(x),对于x∈ Γ2,*m、 Dm(x)+ωmF(x)+νmG(x),对于x∈ D\\Γ1,*m级∪ Γ2,*m级.(21b)假设(参见假设3.2)–Dm+1-Dm公司-公里数∈ HINCF对于m<m和Dm-1.- Dm公司- 公里数∈ HDEC对于m>m;–虚拟机-1(s2,*) ≥ Vm+1(s2,*m)- Km(s2,*m) ,对于m>m和Vm+1(s1,*) ≥ 虚拟机-1(s1,*m)-公里(s1,*m) ,对于m<m;–阈值si,*指令系数ωim,νim,i∈ {1,2},m∈ M满足(44)-(45)中所述的非线性要求系统。然后s1,*, s2,*:=Γ1,*m、 Γ2,*m级m级∈Mis是一个马尔可夫-纳什均衡,而(21)中的Vi是相应的均衡收益。我们稍微滥用(21)中的符号,因为Vm+1和Vm+1不存在。然而,自s1事件以来,*m=d和s2,*m=d,因此Γ1,*m=Γ2,*m=, (44)-(45)中的各个方程确实定义得很好。可以重复定理3.4的证明,以获得与(13)中定义的任何阈值类型竞争策略sj:推论3.5的最佳响应值函数im(x;sj)相对应的方程组的一个近似验证理论。

使用道具

19
大多数88 在职认证  发表于 2022-6-10 06:40:37 |只看作者 |坛友微信交流群
让sbe将P2和V·(·;s)的固定切换阈值构造为asin(21a)。假设-Dm+1-Dm公司-公里数∈ HINCF对于m<m-eVm公司-1(sm;s)≥eVm+1(sm;s)- Km(sm),对于m>m;-(▄s,s,▄ω,▄ν)是(44a)&(45a)的解。然后▄s≡s(s)是最佳响应阈值,而vm(x)是P1的相应最佳响应值函数。定理3.4提供了一种通过求解通过ωiandνi定义的阈值向量和均衡支付的方程组来找到切换博弈MNE的直接方法。不幸的是,因为这是一个大型方程组s(即有6 | M-1 |方程),后者甚至在数值上都是非平凡的。特别是,大多数标准的根查找算法需要合理的初始猜测。根据我们的经验,提供这样的猜测并不容易,因此高维优化算法经常不收敛。因此,在第4节中,我们提出了两种方法来获得接近均衡的阈值向量和博弈支付。备注4。在更一般的情况下,允许玩家以多种方式对MTS进行操作。因此,对于每个模式m,都有一个关联的动作集Cim 这决定了我可以将M转换为的潜在新体制。这一代实现了上面的表示,其中Cm={m+1}和Cm={m- 1} 都是单身。类似地,可以考虑其他过渡图(例如,玩家1通过直接“重置”到基线regimem,Cm={m}表示allm)。当CIM有多个元素时,相应的玩家必须选择如何切换,而不仅仅是何时切换。在后一种情况下,我们需要指定各自的转换成本,即考虑ki(m,m′),它定义了从m转换到m′的成本。

使用道具

20
能者818 在职认证  发表于 2022-6-10 06:40:40 |只看作者 |坛友微信交流群
这种扩展可以通过将(20)中的引线payoff替换为hm(x)=maxm′来处理∈厘米[Vm′(x)-Dm(x)-K(x,m,m′)和跟随者lm(x)=Vm′(x)- Dm(x),其中m′=arg max{m′\'∈ Cm:Vm′(sm)-Dm公司-K(sm,m,m′)}。上述最大项类似于脉冲控制中的干预运算符。3.4均衡宏观动态宏观市场演变*在平衡点m中出现的是一个具有离散状态空间m的时间非齐次非马尔可夫过程。由于阈值型策略的静态性质,m的行为*非常容易处理,是本小节的主题。回想一下,在(11e)中,我们定义了政权M的序列*横向,即▄M*n≡ M*σn.根据(11e),M*nhas内存:M的下一个过渡*受上次过渡的影响。例如,如果▄M*n=+1,前一个区域为M*n-1=+2,这意味着最新的切换是由于玩家2,因此我们开始在区域+1中的s2位置逗留,*+2,即¢X(n)=Xxσn=s2,*+2,而如果之前的状态为▄M*n-1=0然后是玩家1最后切换,我们在s1开始逗留,*, i、 e.~X(n)=Xxσn=s1,*.为了捕获这一1步内存,我们定义了扩展状态的速度:={m-, (m+1)-, (m+1)+,···,m-, m+,···,(m- 1)-, (m)-1) +,m++∪ {ma,ma},(22),其中上标“+”对应于玩家1所做的上一次转换(“M中的上移”)和“-” 对应于玩家2“向下移动M”。我们讨论了最后两个州ma,mabelow。而不是M*twe现在定义了其扩展的跳转链,该跳转链以E和E表示(~M*n-1,米*n) 。请注意,ˇMis undefined,因为我们需要知道之前的转换到了解ˇM的状态。让我们使用图1来解释ˇM的行为。宏观市场从X=0和M开始*= 0,而ˇM*当(Xt)点击s2时开始,*带ˇM*= (-1)-.

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-17 14:25