楼主: nandehutu2022
1275 60

[量化金融] 随机切换博弈 [推广有奖]

21
kedemingshi 在职认证  发表于 2022-6-10 06:40:43 |只看作者 |坛友微信交流群
第一次逗留从s2开始,*当(Xt)到达s2时结束,*-1,将我们引向*= (-2)-, 还有索福思。我们继续计算M的定性行为*viaˇMn。在X反复出现的情况下,阈值策略的性质意味着M*也会有周期性的动力。为了量化动态宏观平衡,我们计算了M的长期分布*关于M。后者通过71m的跃迁概率进行总结*和逗留时间ξmofˇM*n、 当X为瞬态时,M*也应该是暂时的。具体地说,我们应该考虑以下情况:τ1,n∧τ2,n=+∞ (参见(11c)),这样就不会再发生开关,并且M*始终保持不变或“吸收”。在假设X是连续且规则的情况下,这种现象只能发生在M的边界状态,因此一个玩家先验地被限制切换。这会产生一个单侧开关区域,因此有可能出现以下情况:*t型≡m(或m),对于以m为条件的所有t*=m、 也就是说,从sm开始,X从不击中sm-1(或sm从sm+1开始)。注意,给定Xt=x,M*t=m(回想一下这对(Xt,m*t) 无法确定M*是否被吸收。这是通过禁忌概率来处理的【12,Ch.禁忌概率】,当从(m- 1) ±,通过抛出一个硬币来确定新的状态是“M ism+”还是“ma”,可以捕捉到潜在的吸收。回到递归X的情况,让∏表示71m的不变分布*, 从∏P=∏求解,其中P是转移概率m矩阵*. 此外,设~ξbeth为每种状态下预计逗留时间的向量,定义为ξM-:= Eτ1,n∧ τ2,n | y M*n=m-, ξm+:=Eτ1,n∧ τ2,n | y M*n=m+, (23)其中(11b)中定义了阈值命中时间τi。

使用道具

22
何人来此 在职认证  发表于 2022-6-10 06:40:46 |只看作者 |坛友微信交流群
因此,M*在制度m上的支出(回想一下,m*t=m被m捕获*η(t)=m±)由以下公式得出:ρm=∏m+ξm+∏m-ξm-Pj公司∈M{∏j+ξj+∏j-ξj-}, 对于所有m∈ M、 (24)现在让我们考虑er X是非周期性的,因此一个或两个边界制度区域吸收,例如w.l.o.gm+。从长远来看,我们的限制很小→∞M*t=M在这种情况下,感兴趣的数量是球员i在M之前进行的预期控制数量*被吸收,即Nim(x):=limT→∞前任Xk{σik≤T}M*= m级, 我∈ {1,2},(25)和预期吸收时间,Tm(x):=Exhmint型≥ 0:1米*η(t)∈ {ma,ma}M*= 惯性矩。(26)附录D中给出了这些量的分析评估,该附录还提供了M的转移矩阵P的表达式*逗留时间~ξ。还讨论了特定于OU示例2.1和GBM示例2.2过程的计算。3.5 Stackelberg切换器我们强调,切换器的顺序从来都不是预先确定的,因此,切换器的身份Pn是基于博弈进化和(Xt)的实现内生解决的。切换游戏的一种变体是预先指定进行下一次切换的玩家的身份,但不指定其时间,类似于斯塔克伯格均衡,即领导者和追随者角色固定,但时间策略保持不变。如果我们限制机器翻译,后一种情况也会有机地发生∈ {-1,+1}这意味着玩家将在他们的动作中交替:。。。≤ σk≤ σk≤ σk+1≤ σk+1≤ ... 事实上,在任何给定的阶段,只有一个企业可以控制(Mt),因此不需要考虑同时竞争(见[6])。在这种情况下,考虑一个固定阈值类型的平衡是有指导意义的,这就引出了两个阈值s1的特征,*-1和2,*+1.

使用道具

23
nandehutu2022 在职认证  发表于 2022-6-10 06:40:48 |只看作者 |坛友微信交流群
此外,如果他们的利润率和转换成本取决于当地市场环境(Xt),对称性约为0,(Xt)是一个对称性约为0的过程(如OU过程),我们可以寻求与s1的对称平衡,*-1= -s2,*+1=:s和V.(x)=V(-x) 对于任何x∈ D、 反过来,这将有助于发现MNE,从而在s中求解一个非线性方程,从而对相应的结构提供一些见解。检查定理3.4,对于参与者1,方程组简化为V-1(x)=(V+1(x)- K-1(x),x≥ ˇs,D-1(x)+ω-1F(x),x<ˇs,V+1(x)=(D+1(x)+ν+1G(x),x>-ˇs,V-1(x),x≤ -ˇs,其中ˇs,ω-1,ν+1满足以下系统(与(45)相比)V+1- D-1.-K-1.(s)·F′(s)-V+1- D-1.- K-1.′(s)·F(s)=0,(27a)V+1- D-1.-K-1.(秒)- ω-1F(ˇs)=0,(27b)五、-1.- D+1(-ˇs)- ν+1G(-ˇs)=0。(27c)注意,最后两个等式指定ω-1,ν+1表示V±1(±ˇs)。现在我们可以知道这个系统至少支持一种解决方案。推论3.6。假设利润率和转换成本是连续的,并且依赖于当地市场环境(Xt),对称性约为0,(Xt)是一个对称性约为0的过程。那么,对于m={-1, +1}.证据参见附录E.4 MNE的序贯方法为了近似定理3.4中提出的非线性方程s(44)-(45)系统,我们提供了两种序贯方法。第一种方法是通过保持型策略之间的最佳响应迭代,而另一种方法是在有限切换策略中引入平衡。结果的阈值向量可以用作根查找算法中的初始猜测。4.1通过最佳响应迭代构建MNE考虑到竞争对手的策略,确定一个参与者的最佳响应类似于[4,10]中研究的单代理最优切换问题。

使用道具

24
何人来此 在职认证  发表于 2022-6-10 06:40:51 |只看作者 |坛友微信交流群
让我们假设Player2实现了定义3.1中的阈值类型策略sas。然后,预计Player1的最佳响应通过(13)来表征,这是一个耦合的最优停止问题系统。然后,我们将该系统解耦,尤其是应用命题3.3,一旦领导者/追随者的薪酬得到充分规定,该命题将为玩家1提供最佳的响应阈值和游戏薪酬。为此,我们考虑了辅助问题,其中玩家1可以使用的动作/切换数量是有限的。也就是说,玩家1最多只能使用N(≥ 1) 控件。她的相应策略集定义为1,(N):=(α,s)∈ A:τ(n)=+∞, n>η(1,n), (28)式中,τ(n)是在游戏的第n“轮”停止规则玩家1,而(5)中定义的η(1,n)表示玩家1执行其第n次切换的轮。请注意,现在允许停止设置明确取决于剩余的控制数量(相当于已使用的开关数量加上初始约束)。然后,有Ncontrols的玩家1的最佳响应为aseV1,(N)m(x;s):=supα1,(N)∈A1,(N)Jm(x;α1,(N),s),x个∈ D、 (29)对于所有m∈ M、 当玩家1没有控制权N=0时,其在任何阶段M的支付都由s完全决定,例如在状态M+1eV1,(0)M+1(x;s)=Ex“ZτM+1e-rtπm+1(Xt)dt#+Exhe-rτm+1i·Dm(sm+1),(30),其中最后一项是(7)中定义的固定市场状态现金流的NPV。提案4.1。给定玩家j的阈值类型策略SJ,具有有限控件的玩家i的最佳响应GamePayoff收敛为Ni→ ∞, 即x个∈ D、 eVi,(Ni)m(x;sj)eVim(x;sj),对于所有m∈ M为Ni∞.命题4.1的证明受[4]启发,并在附录C中说明。

使用道具

25
mingdashike22 在职认证  发表于 2022-6-10 06:40:54 |只看作者 |坛友微信交流群
此外,X的stron-gMarkov性质和动态规划原理(DPP)意味着ev1,(N)m(X;s)=supτ(1)∈TEx“Zτme-rtπm(Xt)dt+e-rτm{τ(1)>τm}·eV1,(N)m-1(Xτm;s)+e-rτm{τ(1)≤τm}eV1,(N-1) m+1(Xτ(1);s)- Km(Xτ(1))#,(31)对于所有m∈ Mx个∈ D、 τm第一次击中时间Γm=(D,sm),并且τ(1)依赖于为简洁起见指定的参数。我们参考了[4,10],他们证明了民进党在这个问题上是站得住脚的,[2]他们分析了有限的控制阻止游戏。请注意,博弈支付(30)可以被视为实施反向动态规划方案的起点,以解决(31)中引入的有限控制最优停止问题。假设EV1,(N)m-1(·;sj)和V1,(N)-1) 确定m+1(·;sj),假设3.2成立。我们表示eV1,N(x;τm):=eV1,(N)m(x;sj)- Dm(x),h1,N(x):=eV1,(N-1) m+1(x;sj)- Dm(x)- Km(x),l1,N(x):=eV1,(N)m-1(x;sj)- Dm(x)并将命题3.3应用于领导者/追随者payoff s h1、N、l1,以获得最佳响应game payoff eV1、(N)m(x;s),其中ich由eω1、(N)m、eν1、(N)m、~s1、(N)m进行参数化。多亏了命题4.1,我们知道v1、(N)m(x;s)收敛,因此期望s1、(N)m→ Sm将收敛,以及N→ ∞. 因此,对于Nlarge,我们可以使用▄s1,(N)定义一个时间平稳策略,该策略是最佳响应的代表。在上述收敛结果的基础上,我们提出以下算法来确定阈值型马尔可夫纳什均衡。本质上,我们采用t^atonnementapproach,交替寻找两个参与者的最佳响应策略,期望收敛到相关的最佳响应固定点。这些交替的最佳响应通过“轮数”a=1、2、…、,A.

使用道具

26
mingdashike22 在职认证  发表于 2022-6-10 06:40:57 |只看作者 |坛友微信交流群
在奇数轮中,玩家1求解以获得最佳响应(i=1,j=2);在偶数回合中,玩家2解决了她的最佳反应(i=2,j=1):①: 将参与者j的策略设置为阈值类型sj,a:–对于a=1,将s2,1a设置为P2的垄断阈值,即当P1不允许切换时(N=0情况)。然后,可以通过解决单个代理的最优切换问题来获得阈值s2,1对于>1集sj,a=esj,a-1.②: 为所有m求解前i、a和值函数vi、(N)m(·;sj、a)∈ M: –当玩家i最多允许n个开关,且玩家j应用sj时,根据命题3.3,解决最佳停止问题,迭代n=1,N、 –RecordeVi,(N)m(·)和近似最佳响应s trategyesi,a(sj,a-1) si,(N)③: 更改i和j的角色(交替哪个玩家解决f或最佳响应)④: 重复步骤① - ③ 当a=1时,直到| esi,(N),a的最大变化-esi,(N),a-2 |,i∈ {1,2}都小于预定公差水平T ol(或周围的模拟)。图2在我们的一个案例研究中说明了最佳反应归纳法。在每一次循环中,我们都会反复寻找最佳响应,假设玩家i最多有Niswitch。在奇数轮中,a=1,3。玩家2执行固定策略s2,A,其游戏值(灰色“+”)随着玩家1的控件数量N=1而减少,30增加。相反,在偶数迭代中,玩家2的游戏值v2,(N)mconverge向上为0 5 10 15 20 25 303234383840玩家2的游戏值(a)游戏值的近似值-2.-1 0 1 2 312345s2s1(b)阈值近似图2:通过M={-1, 0, +1}. 正方形表示轮数a=1,3。玩家的2个策略已确定。三角形表示偶数圆a=2,4。玩家的1策略已确定。

使用道具

27
kedemingshi 在职认证  发表于 2022-6-10 06:41:00 |只看作者 |坛友微信交流群
(左):玩家2的游戏值,M=0,X=0,根据▄V2,N(X;s1,a),N=1,2,30(右):阈值si、aas是在m=0和N=30时a的函数。放大的正方形表示第一轮a=1,放大的三角形表示最后一轮a=30,这似乎接近一个固定点。N=1,30、右侧面板上显示相应的阈值si、amare sh。我们观察到,博弈值和阈值在Ni上经过30次Inner迭代后收敛,overA=30次外部连接回合(总共30×30×2个通过命题3.3解决的最优停止问题)。特别是,我们可以将si,(N),Amas作为最佳响应定点的近似值,从而得出si的等式,*m、 4.2通过均衡诱导构建MNE构建切换博弈的(近似)阈值型MNE的另一种方法是在有限的时间控制范围内进行限制。这链接到作者的早期作品中[2]。假设两个参与者都被限制为具有各自边界的、非总允许开关数的有限控制策略。具体而言,我们考虑αi(n,n)形式的策略:=Γi,(k,k)mk≤n、 k级≤纳米∈M、 含Γi,(0,kj)M≡ , (32)其中ki≤ nidenotes玩家i剩余的控制数量,并将此游戏的各个阶段指数为(Mt,Nt,Nt):={宏观市场机制,#P1剩余的控制,#P2剩余的控制},Mt∈ M、 Nitis是N上的一个非递增分段常数过程,Ni=kifori∈ {1, 2}. 这种类型的双寡头博弈由[2]研究,他们通过反向动态规划确定每个博弈阶段的局部均衡,并修补它们以构造一个全局均衡。在子阶段(m、k、k),局部均衡被描述为基于命题3.3的这些参与者最佳反应的固定点。

使用道具

28
可人4 在职认证  发表于 2022-6-10 06:41:03 |只看作者 |坛友微信交流群
再次以玩家1为例,她的领导者和追随者的报酬与她在相邻阶段的均衡博弈报酬相关,这在实施反向动态规划时是已知的:(h1,(k,k)m(x):=V1,(k-1,k)m+1(x)- Dm(x)- Km(x),l1,(k,k)m(x):=V1,(k,k-1) m级-1(x)- Dm(x),(33)及其平衡策略(τ1,(k,k),*m、 τ2,(k,k),*m) 游戏支付解决了一对最优停止问题:V1,(k,k)m(x)- Dm(x)=supτ1,(k,k)m∈特克斯{τ1,(k,k)m<τ2,(k,k),*m} ·h1,(k,k)m(Xτ1,(k,k)m)+1{τ1,(k,k)m>τ2,(k,k),*m} ·l1,(k,k)m(Xτ2,(k,k),*m),V2,(k,k)m(x)- Dm(x)=supτ2,(k,k)m∈特克斯{τ1,(k,k),*m<τ2,(k,k)m}·l2,(k,k)m(Xτ1,(k,k),*m) +1{τ1,(k,k),*m> τ2,(k,k)m}·h2,(k,k)m(Xτ2,(k,k)m).(34)图3:说明第4.2节局部时间平衡归纳的示意图,从(-1,0,0)和m=-2和m=+2,这导致-2= -1.-1=0, . . . , +2=3英寸(35)。该图说明了可达到阶段(m,k,k)相对于(m,0,0),并使用“正向”动态规划方案。蓝色圆圈表示对应于最优停止问题的单代理优化子阶段,而红色圆圈表示根据(34)确定局部定时平衡的内部阶段。边界水位是指k=0或k=0或m的水位∈ {m,m}。无法从访问阶段(-1、0、0)省略。注意,可以排除同时切换,因为在事件{τi,(k,k)m=τj,(k,k),*m} ,由玩家1阻止严格由首先等待,然后作为跟随者进行最佳切换的策略控制。在文献[2]中,我们证明了在Di和Ki的某些正则条件下存在局部平衡,但不能保证唯一性。

使用道具

29
何人来此 在职认证  发表于 2022-6-10 06:41:06 |只看作者 |坛友微信交流群
此外,这种局部均衡并不总是阈值型的,因为可能会出现先发制人的均衡。在图3-4(b)所示的示例中,我们实施了一个正向方案,以生成从子阶段开始的平衡序列(m,k,k)=(-1,0,0),其中支付金额为(0,0)-1(x)=Di-1(x)。有了这个kn,我们可以求解(0,0,1)和(2)阶段的局部平衡(-2,1,0)利用(33)。通过迭代,我们找到图中所示的所有三元组(m,k,k)的局部平衡(自始至终,我们得出结论,局部平衡在任何子阶段(m,k,k)都是阈值类型)。这些tr iPlet可以表示为k=k+m、 其中辅助参数在区域m处,管理层可用交换机数量之间的差异。例如-在图3中,1=0,因此,无论何时,当玩家处于状态Mt=-1,参见子阶段(- 1, 1, 1), (-1, 2, 2), . . . . 无法从中访问的子级(m、k、k)(-1,0,0),在这种情况下,我们不需要考虑特殊的局部平衡。使用终端游戏阶段(-1、0、0)并继续到k≤ N、 上述转发方案迭代产生一系列平衡阈值si,(N,N+m) mand对策系数(ωi,(n,n+m) m,νi,(n,n+m) )。产生的游戏报酬如图4(a)所示。如上所述,参数最小影响图3中的所有平衡。例如,在所提出的方案中,游戏最终将以Mt=-1对于足够大的t。然而,随着N的增加,我们预计这种影响会消失,因此限制与m:si,(n,n)+m) mωi,(n,n+m) mνi,(n,n+m)同n∞------→硅,*mωi,*mνi,*m级, 我∈ {1,2},m∈ M、 (35)在图4中可以观察到这种收敛,其中基本对称性意味着V1,(n,n+1)(0)=V2,(n+1,n)(0)。因此,我们可以对图中的顶部曲线进行解释。

使用道具

30
kedemingshi 在职认证  发表于 2022-6-10 06:41:09 |只看作者 |坛友微信交流群
4(a)当玩家比对手多了一个开关时,作为最终阶段设置中的游戏支付,当玩家比对手少了一个开关时,底部曲线作为游戏支付。作为n→ ∞, 相对效益消失,两个Vi,(n,n±1)(x)接近Vi(x)。同样,在图4(b)中,M*,(n,n+1)收敛于M的*在[0,\'T,\'T=50时。上述方案出现了两个问题。首先,关联的平衡支付Vi,(N,N)在Nor N方面不是单调的。例如,较高的NBE值P1,而较高的NBE值会对她造成伤害,因为她的竞争对手现在更灵活。同时更改Ni的平衡支付1层2(a)的控制有限控制均衡支付(n,n+1)(X)10 20 30 40 50 60 70 800.00.20.40.60.81.0玩家控制1时间比例+10-1(b)M的有限控制分布*图4:使用图3中正向方案的均衡归纳。我们假设Player2有一个额外的控件,N=N+1<=> = -1、左图:平衡支付函数Vi,(N,N)M(X),X=0,M=0,由N索引。虚线表示原始有限控制博弈中的极限支付函数Vi(X)。右:M的时间平均分布*,(N,N)吨[0,\'T),\'T=50。具体而言,我们显示ρm(\'T):=Eh'TR'T{m*s=m}dsM*= 0ifor m∈ {-1,0,1}为9。导致不明确的结果:在图4(a)中,P1的支付首先减少,然后在N=N的条件下增加- 因此,(35)中的收敛性很难证明。其次,局部计时博弈可能会产生多个阈值类型的均衡[2]。因此,当引入Ni’s时,平衡选择变得很重要。背景m=m(分别为。m=m)相当于授予P2(分别为P1)有限数量的允许开关,而她的对手仅限于有限数量的控制。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-17 12:32