楼主: mingdashike22
1474 49

[量化金融] 选举干扰中的非合作动力学 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-6-25 07:10:29
这些函数在Red的反对称最终条件下是线性的,在Blue的光滑对称最终条件下是二次的(这是偶数分析函数的Taylor展开中的第一个非常数);o平滑函数,表示对选举过程结果的有界偏好,以及对红色特别偏爱一位候选人的认识;以及o不连续的最终条件,模拟对结果的“所有或任何”偏好(要么候选人A获胜,要么不获胜;要么红色干扰小于一定量,要么干扰更多)。这些函数无法捕获实际选举干扰操作中可能存在的某些行为。例如,雷德的偏好可能如下:“我们希望候选人A赢得选举,但如果他们不能,那么我们希望候选人B以压倒性优势获胜,这样我们就可以声称蓝的国家的选举制度是针对候选人A操纵的”。这些偏好对应于一个最终条件,全局最小值在somex<0,而次局部最小值在x 0、这种情况不受我们所述任何最终条件的影响。以秒为单位。III我们放松了最终条件根据本节中考虑的任何函数形式进行参数化的假设,而是使用第节中描述的方法从观察到的选举和选举干扰代理数据中推断出它们。II B 3.2。值函数将动态规划原理【17,18】应用于等式。

12
何人来此 在职认证  发表于 2022-6-25 07:10:32
3、4和5导出了红值函数和蓝值函数的耦合HamiltonJacobi-Bellman方程组,-虚拟现实t=西撒特派团虚拟现实x【uR+uB】+uR- λ摩擦+σ虚拟现实x个,(7) 以及-VBt=分钟VBx【uR+uB】+uB- λBuR+σVBx个.(8) 动态规划原理不会产生艾萨克斯方程,因为博弈不是零和,红色和蓝色的成本函数可以有不同的函数形式。(艾萨克斯方程是一个非线性线性或抛物线方程,出现于对两人零和博弈的研究中,其中一人试图最大化一个泛函,另一人试图最小化它[27,28]。)对控制变量进行最小化得到了纳什均衡控制策略,uR(t)=-虚拟现实x个(t,Xt)(9)uB(t)=-VBx个(t,Xt),(10)和方程的精确函数形式。7和8,-虚拟现实t=-虚拟现实x个-虚拟现实x个VBx个-λRVBx个+σ虚拟现实x、 VR(x,T)=ΦR(x);(11)-VBt=-VBx个-VBx个虚拟现实x个-λB虚拟现实x个+σVBx、 VB(x,T)=ΦB(x)。(12) 当在整个状态空间上求解时,解为Q。11和12构成了子博弈完美纳什均衡的策略。无论玩家i在时间t采取什么行动,玩家i都能够在时间t+dt以最佳行动作出响应。这是对连续时间差分博弈中的子博弈perfectNash均衡的(公认是非正式的)定义[26]。给定解对VR(x,t)和VB(x,t),我们可以分析地写出x,uR和uba的分布。方程式的替代。9和10转化为等式3,给定dx=-虚拟现实x |(t,x)+VBx |(t,x)dt+σdW。我们将该方程在N个时间点上离散,得到xn+1- xn公司+t【VRn+VBn】- (t) 1/2σwn- yδn,0=0,(13)带wn~ N(0,1),t=tn+1- tn,n=0。。。,N- 1和Vin所在位置≡ Vi(xn,tn)。

13
mingdashike22 在职认证  发表于 2022-6-25 07:10:36
因此,潜在选举过程增量的分布isp(xn+1 | xn)=√2πσte公司-t2σ(xn+1-xn公司t+[VRn+VBn]-yδn0t) 。(14) 现在,利用Xt的马尔可夫性质,我们得到p(x,…,xN | x)=N-1Yn=0p(xn+1 | xn)(15)=(2πσt) 不适用于2exp-2σS(x,…,xN),(16) 式中(x,…,xN)=N-1Xn=0thxn+1- xn公司t+[VRn+VBn]-yδn,0ti。(17) 取N→ ∞ 作为Nt=t保持不变,给出函数高斯分布,p(x(0→ T) | x)=Zexp-2σS[x(0→ T)], (18) 带动作[x(0→ T)]=ZThdxdt+虚拟现实x个x=x(t)VBx个x=x(t)- yδ(t- t) idt(19)和分区函数z=Zx(t)x(0)Dx(0→ T)经验值-2σS[x(0→ T)]. (20) 我们用x(s)表示→ t) 从时间s到时间t的潜在状态所遵循的实际路径。测量值Dx(0→ T)是经典的维纳测度。SinceuR(0→ T)和uB(0→ T)是x(0)的确定性时间相关函数→ T),我们可以使用概率分布公式16和适当的时间相关雅可比变换明确地确定其分布。这些分析结果的实用性有限,因为我们不知道等式中给出的系统的分析解。11和12,因此VR(x,t)和VB(x,t)必须近似。以秒为单位。II C当玩家i宣布对特定控制路径的可信承诺时,我们将得出有效的分析结果。我们通过反向迭代以数值方式找到值函数VR(x,t)和VB(x,t),在x=±3处强制执行Neumann边界条件,这对应于候选人B在100×φ以下的投票普及率(-3) =4.7%,从上面乘以100×φ(3)=95.3%[29]。我们在图2中展示了不同λi和最终条件下值函数的实现示例。由于状态方程由高斯白噪声驱动,因此值函数显示不同的动力学。价值函数也在很大程度上取决于最终条件。

14
能者818 在职认证  发表于 2022-6-25 07:10:39
当最终条件不连续时(如图2的顶部面板所示),值函数的导数达到更大的量级,并且变化速度比最终条件连续时更快。这对这些结果的博弈论解释产生了影响,正如我们在第二节中讨论的那样。II B 4。图2还表明,当λR=λB=0时,值函数的极值大小不如λR=λB=2时大;这是因为λi的值越高,玩家i的效用不仅来自于游戏的最终结果,还来自于促使玩家i在游戏中扩展资源。等式。7和8给出了给定当前状态XT和时间t、URAN和uB的闭环控制策略。我们展示Fig。2、系统方程对应的值函数示例。11和12。面板A和B分别显示λR=λB=0,ΦR(x)=2[Θ(x)时的VR(x,t)和VB(x,t)- Θ(-x) ,ΦB(x)=2[Θ(| x |- 0.1) - Θ(0.1 - |x |))]带 = 0.1,当λR=λB=2、ΦR(x)=2 tanh(x)和ΦB(x)=xΘ时,panelsC和D分别显示VR(x,t)和VB(x,t)(-x) 。对于每个解,我们强制执行Neumann无flux边界条件,并设置σ=0.6。该解是在具有x的网格上计算的∈ [-3,3],设置dx=0.025,并对Nt=8000时间步进行积分。uR、UB和ZT选举过程示例如图3所示。对于这个例子,我们用参数λR=λB=2、ΦR(x)=x和ΦB(x)=xΘ来模拟游戏(-x) 。我们在顶部面板中绘制控制策略。平均控制策略E[uR]和E[uB]以粗曲线显示。对于此参数集,红色tobegin游戏的干扰量比蓝色Does大,并且平均减少干扰超时的水平是最佳的。在整个比赛中,蓝色增强了他们对红色干扰的抵抗力。尽管蓝队顶住了里德的干扰,但红队能够实现他们让候选人A获胜的目标。3.

15
可人4 在职认证  发表于 2022-6-25 07:10:42
推理和预测方程的解。11和12是最终条件VR(x,T)=ΦR(x)和VB(x,T)=ΦB(x)的函数。即使ΦR(x)和ΦB(x)未知,也可以在t<t时执行推断和预测。为了做到这一点,我们假设系统通过等式给出。11和12在特定的最终条件ΦRandΦB下有唯一的解。虽然我们有数字证据表明此类解确实存在且唯一,但我们尚未证明情况确实如此。在对比中,我们希望找到系统一些未观测参数的值分布。我们将假设我们想要推断ΦRandΦBgiven the observedpath x(0→ t) ,uR(0→ t) ,uB(0→ t) t<t。对于隐含性,我们假设我们知道等式的所有其他参数。11和12的确定性。然后是ΦRandΦBreadsp的后验分布(ΦR,ΦB | Xs)∝ p(x(0→ t) |ΦR,ΦB)p(ΦR,ΦB)。(21)可能性p(x(0→ t) |ΦR,ΦB)为高斯分布,如公式18所示,并取决于时间相关的雅可比数0.00.20.40.60.81.01.2u(t)(控制策略)0.0 0.2 0.4 0.6 0.8 1.0t(年)20%30%40%50%60%70%80%Zt(候选人B投票),有干扰无干扰图。我们在顶部面板中显示uRand uBin的实现,在底部面板中显示选举过程的路径。我们通过参数λR=λB=2、ΦR(x)=x和ΦB(x)=xΘ模拟的游戏绘制这些实现(-x) 。对于这个参数集,Blue正在打一场败仗,因为两个参与者的最佳表现会导致E[Zt]低于选举过程,而不会受到任何干扰。由等式的解隐含定义的转换。11和12。如果我们想使用最大似然法,而不考虑我们对ΦRandΦB形式的先验信念,则可以将先验最终条件p(ΦR,ΦB)设置为与单位成比例。

16
mingdashike22 在职认证  发表于 2022-6-25 07:10:45
我们可以用一组有限的参数ai,k参数化的函数来近似ΦRandΦb,其中i∈ {R,B}和k=0。。。,K、 然后用多元分布p(kR,0,…,kR,K,kB,0,…,kB,K)近似函数先验p(ΦR,ΦB)。在第二节中执行推断时,我们将采用这种方法。三、 同样,我们可以预测x(t)的未来值,从而预测uR(t)和ub(t)。现在我们想找出观测x(t)的概率→ T)给定观测x(0→ t) 。为此,我们在给定观测路径x(0→ t) 。积分是针对函数度量D(ΦR(x),ΦB(x))进行的。这意味着,集成将接管位于某一特定类函数中的ΦRandΦb的所有可能选择【30】。在推理的情况下,我们可以通过一组有限的参数sai来近似ΦRandΦBby函数,并在这些参数的2K维域上进行积分。在目前的工作中,我们无法预测潜在选举进程或控制政策的任何未来价值。4、值函数对参数的依赖我们对λR、λB、ΦR和Φbt进行了粗略的参数扫描,以探索该游戏的定性行为。我们在图中显示了两种最终条件组合的参数扫描结果。4和5。图中每个面板的右上角显示了每个玩家的最终状态。保持蓝色的最终条件为ΦB(x)=xΘ(-x) 常数,我们比较了耦合参数λR,λB的值之间的纳什均衡策略uR(t)和uB(t)的平均值和标准偏差∈ [0,3]当Red的最终条件从ΦR(x)=tanh(x)变为ΦR(x)=Θ(x)时- Θ(-x) 。对于这些最终条件的组合,耦合参数λi的高值使用控制策略具有更高的方差。

17
mingdashike22 在职认证  发表于 2022-6-25 07:10:48
当Red的最终条件不连续时,这种增加不变性更加明显,这是合理的,因为在这种情况下→T-uR(x,t)=-δ(x)。附录A包含每3=9个红色示例最终条件组合的类似图,ΦR(x)∈ {tanh(x),Θ(x)- Θ(-x) ,x}和蓝色示例最终条件,ΦB(x)∈xx,xΘ(-x) ,Θ(|x|)- ) - Θ( - |x |). 我们还发现,某些参数组合会导致双方控制政策中的“军备竞赛”效应。对于这些参数组合,纳什均衡策略需要在接近游戏结束时,每个玩家的控制策略的大小呈超指数增长。图6显示了其中一些参数组合的E【uR】和E【uB】,以及每个t的uR(t)和uB(t)的中间80%可信区间(第10至90百分位)。随机变量Y的可信区间~ p(y)是一个区间,其中y以特定的概率下降【31】。例如,Y的中间80%可信区间~ p(y)是间隔(a,b),其中bap(y)dy=0.8 andRa-∞p(y)dy=R∞bp(y)dy=0.1。当任一玩家有不连续的最终条件时,每个玩家的控制策略的幅度就会增加。虽然玩家i的不连续最终条件导致玩家i的控制策略的平均幅度比玩家i的增加更大,但每个玩家策略的标准偏差表现出类似的超指数增长。在某种程度上,该模型反映了现实,这表明了一种关于电视干扰操作的一般性陈述:红色或蓝色对选举最终结果的“全有或全无”心态导致了一场对双方都产生负面影响的军备竞赛。这是任何strategicFIG的一般特征。当Blue的最终条件设置为ΦB(x)=xΘ时,示例扫描耦合参数λRandλB(-x) 。

18
kedemingshi 在职认证  发表于 2022-6-25 07:10:51
我们改变[0,3]上的耦合参数,并显示控制策略uR(x)和uB(x)的结果标准偏差。面板A和B代表一个耦合的方程组,而面板C和D代表一个具有不同最终条件集的耦合方程组。在面板A中,红色的值函数设置为ΦR(x)=tanh(x),而在面板B中,由ΦR(x)=Θ(x)给出- Θ(-x) ,其中Θ(·)是Heaviside函数。我们在每个面板的右上角显示相应最终条件的图示符。将Red的连续最终条件tanh(x)更改为不连续Θ(x)- Θ(-x) 结果两个参与者的控制策略差异显著增加。模型通过等式描述的相互作用。3-5适用。C、 可信承诺如果参与者可信地承诺在所有[0,t]上玩一个特定的策略v(t),那么playeri找到子博弈完美纳什均衡策略文件的问题就变成了一个更容易的最优控制问题。玩家i对策略v(t)的可互换承诺意味着o玩家i直接或间接地告诉玩家i,玩家i将遵循v(t);而且oplayer我应该理性地相信,player-i实际上会遵循v(t)。使战略承诺可信的机制的一个例子是苏联的“死手”自动二次打击核反应系统。如果该机制检测到苏联遭到核打击,它将对美国发动全面的核攻击。

19
kedemingshi 在职认证  发表于 2022-6-25 07:10:54
这一机制的存在使得对“鉴于对我国的任何核攻击都已发生,对美国发动全面核攻击”战略的承诺是可信的,尽管双方执行该战略的潜在成本很高。当玩家可信地承诺玩v(t)游戏时,playeri的问题就归结为找到迷你图的策略u(t)。当Blue的最终条件设置为ΦB(x)=xΘ时,示例扫描耦合参数λRandλB(-x) 。我们在[0,3]上改变耦合参数,并显示控制策略uR(x)和uB(x)的结果平均值。面板a和B代表一个耦合的方程组,而面板C和D代表一个具有不同最终条件集的耦合方程组。在面板A中,红色的值函数设置为ΦR(x)=tanh(x),而在面板B中,由ΦR(x)=Θ(x)给出- Θ(-x) 。将红色的最终条件从连续变为不连续会导致蓝色控制策略平均值的最大值增加100%以上。根据修改后的状态方程dx=[u(t)+v(t)]dt+σdW,将函数u,X(Φ(XT)+ZT(u(t)+λv(t))dt,(22)最小化。(23)玩家i的值函数现在由HJB方程的解给出-五、t=分钟五、x[u+v]+u- λv+σ五、x个. (24)执行最小化得到控制策略u(t)=-五、x个x=x(t)和HJB方程的显式函数形式,-五、t=-五、x个+ v(t)五、x+λv(t)+σ五、x、 V(x,T)=Φ(x)。(25)1. 路径积分控制该HJB方程虽然是非线性的,但可以通过变量的变化转化为后向Kolmogorov方程(BKE)。BKE可以用路径积分法求解[34]。设置V(x,t)=-ηlogД(x,t),代入式25,并进行微分,我们能够消除非线性微分。6.

20
kedemingshi 在职认证  发表于 2022-6-25 07:10:56
在强耦合的情况下(λRandλB 0),任一参与者的不连续最终解决方案都会导致每个参与者的控制策略的数量呈超指数增长。在这里,我们设置λR=λB=3并集成三个系统,每个系统只改变一个最终条件。面板A显示具有两个连续最终条件的系统:ΦR(x)=tanh(x)和ΦB(x)=xΘ(-x) 。当红色最终条件更改为ΦR(x)=Θ(x)时,面板B显示平均红色和蓝色控制策略- Θ(-x) 由于蓝色最终状态保持相同toxΘ(-x) ,而面板C显示ΦB(x)=Θ(| x |>1)时的控制策略- Θ(| x |<1)和ΦR(x)=tanh(x)。阴影区域对应于每个t的uR(t)和uB(t)的中间80个百分位(第10到90个百分位)。当任一玩家具有不连续的最终条件时,两个玩家的百分位区间比两个玩家具有连续的最终条件时要宽得多。且仅当ηДφx个=σηφφx个. 设置η=2σ满足此条件。执行变量变化时,等式25现在是线性的,并且具有与时间相关的裂缝和下沉项,φt=λ2σv(t)Д(x,t)- v(t)φx个-σφx、 Д(x,T)=exp-2σΦ(x).(26)应用Feynman-Kac公式得出式26的解为[35]Д(x,t)=exp(-λ2σZTtv(t)dt)×EYt经验值-2σΦ(YT)Yt=x,(27)式中,Y定义为dyt=v(t)dt+σdWt,Y=x。(28)使用这种形式,我们应用路径积分控制来估计任意v(t)的值函数。图7显示了公式25的路径积分解决方案示例,当玩家i可信地承诺在游戏持续时间内玩v(t)=t,并且玩家i的最终成本函数采用Φ(x)=Θ(| x |)的形式- 1) - Θ(1 - |x |)。在此图中。在最终条件Φ(x)=Θ(| x |>1)下,将路径积分蒙特卡罗解法应用于等式25的结果- Θ(| x |≤ 1) v(t)=t。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-3-11 23:09