楼主: 可人4
936 34

[量化金融] 平均场比赛 [推广有奖]

11
能者818 在职认证  发表于 2022-6-1 05:07:30
然后,使用常数控制λ≡ ε>0会产生一个e[τ]=1/ε的预期到达时间,因此预期回报isER(ρ(τ))-Zτεdt= 1.- ε.因此,对于所有r<1的情况,值函数满足v(r)=1=r(r)。但由于λ≡ 0产生零回报,而任何其他控制都有正成本,这个值无法实现:没有最优控制,因此没有上述意义上的均衡。备注2.4。我们从(2.5)中看到,平衡值函数独立于成本系数c。这也可以通过使用Kolmogorov方程(2.2)和变量变化公式v(r)=supλ将(2.3)表示为秩上的积分来直接理解od∈∧E“R(ρ(τλ))-Zρ(τλ)ρ(0)c(r)λ(r)dr1- rρ(0)=r#。实际上,ρ(τλ)与λ无关-当所有代理使用相同的控制时,它们的排名由Zi的排名给出。另一方面,cλ∈ ∧i仅当λ∈ ∧,因此v在平衡时与c无关。直觉上,较高的成本会导致较小的最优效益,但由于这对allagents是成立的,平衡状态ρ会减慢,以使降低的效益产生相同的回报。任何代理人的均衡价值函数都有一个令人惊讶的解释:可以将其比作一笔交易,即代理人不为其(持续的)工作支付任何费用,但却被赋予了以竞争对手一半的强度运行的障碍。提案2.5。(2.5)的平衡值函数v与作用力固定在λ的试剂的值函数一致≡ λ∈ (0, ∞) andis收取零成本,而所有其他代理使用λ≡ 2λ:v(r)=E[r(ρ(τ))|ρ(0)=r],其中τ~ Exp(λ)和ρ′(t)=2λ(1- ρ(t))。特别地,v(0)=E[R(1- e-2τ)],用于τ~ 实验(1)。下面的结果表明,定理2.2的唯一均衡相对于奖励方案是稳定的。提案2.6。

12
kedemingshi 在职认证  发表于 2022-6-1 05:07:33
设Rn,R为奖励方案,使得Rn→ R点方向。然后,相应的平衡最优控制也收敛于e点,而平衡值函数和状态过程一致收敛。2.1闭式解的例子在本节中,我们给出了一系列显式可解的例子。给定总奖励预算B=RR(r)dr≥ 0,该族有一个cut-o off参数α∈ (0,1)表示不会向排名低于α的代理支付奖励,以及形状参数q≥ 然后给出一般形式nbyr(r)=κ(1- r) q[0,α](r),κ=B(1+q)1- (1 - α) 1+q;常数κ的选择应确保B=RR(r)dr。我们注意到,q值越大,表示奖励预算的很大一部分支付给排名靠前的玩家,而q=0对应于奖励在排名靠前的α级之间的均匀分布。为了获得这样的回报,定理2.2的值函数和最佳效果允许闭式解:v(r)=κ(1+2q)(1- r) q- (1 - α) qr1- α1 - r!+,λ*(r) =1{r≤α} κ2c(r)(1+2q)2q(1- r) q+(1- α) qr1- α1 - r在边界条件α=1的情况下,当0<q<1时,不满足定理2.2的Lipschitz假设。然而,在这种情况下,可以通过直接计算来检查所示公式。通常,c.d.f.fτλ*(t) =通过求解ρ的Kolmogorov方程(2.2),可以数值计算任何试剂平衡完成时间的ρ(t)。反转平衡态过程也会产生量子位β=inf{t:ρ(t)≥ β}; 也就是说,直到β比例的球员达到目标的时间。在以下特殊情况下,这些量可以以闭合形式获得。2.1.1无断电的电力奖励这种情况对应于α=1,其中我们还假设成本c是恒定的。

13
kedemingshi 在职认证  发表于 2022-6-1 05:07:36
然后Above公式专门化为v(r)=B(1+q)1+2q(1- r) q,λ*(r) =Bq(1+q)c(1+2q)(1- r) q,我们也可以解Fτλ*(t) =ρ(t)=1-1+Bq(1+q)c(1+2q)t-q及其β分位数Tβ=c(1+2q)Bq(1+q)[(1- β)-q- 1] . 我们看到q中的平衡值V在下降。也就是说,如果奖励方案严重偏向排名靠前的玩家,每个人的效果都会更差;这可归因于较大的出口水平λ造成的成本*在比赛开始的时候。我们还观察到λ*r值在下降,因此一旦更高级别的人员被填补,代理就会降低其效力。2.1.2切向均匀,这种情况对应于q=0,我们再次假设成本c是恒定的。一般公式现在专门化为v(r)=Bα1-r1级- α1 - r!+,λ*(r) =1{r≤α} B2cαr1- α1 - r、 我们还有Fτλ*(t) =ρ(t)=1-1.-B√1.-α4cαt对于t≤ Tα和Fτλ*(t) =ρ(t)=α,对于t>tα,其中tα=4cα(1-√1.- α) B类√1.- α、 (2.6)然后一般分位数是Tβ=4cα(1-√1.-β) B类√1.-α表示β≤ α和Tβ=∞对于β>α。与α=1的情况相反,我们看到λ*正在增加r forr≤ α: 随着比赛的进行,经纪人会争夺剩余的报酬,并增加他们的努力,直到α-比例的经纪人达到目标,然后剩下的球员放弃;参见图2.0 0.2 0.4 0.6 0.8 1r0.51.52.5R(r)Rewardq=0q=0.4q=10 0.2 0.4 0.6 0.8 1r0.20.40.60.81.2λ*(r) 最佳效率Q=0q=0.4q=1图2:在断电α=0.5,假设GB=1和c的情况下,功率奖励下的最佳效率≡ 1.2.2楼梯奖励考虑奖励方案R和楼梯的成本系数c FORM R=R[R,R]+nXj=2Rj(rj-1,rj],c=c【r,r】+nXi=2cj(rj-1,rj],其中R≥ R≥ ··· ≥ 注册护士≥ 0和0=r<r<····<rn=1是常数。

14
能者818 在职认证  发表于 2022-6-1 05:07:38
然后,公式(2.4)和(2.5)得出rj的公式-1<r≤ rj,v(r)=rj+√1.- r-Rjp1- rj+nXk=j+1Rkp1级- rk公司-1.-√1.- rk公司,λ*(r) =2cj√1.- rRjp1- rj公司-nXk=j+1Rkp1级- rk公司-1.-√1.- 国际扶轮社.我们声称平衡态ρ由ρ(t)=1给出-p1级- rj公司-1.-Aj4cj(t- tj公司-1), tj公司-1.≤ t型≤ tj,(2.7),其中Aj=Rjp1- rj公司-Pnk=j+1Rk(√1.- rk公司-1.-√1.- rk)和tjis由tj=tj递归定义-1+4cjAj(p1- rj公司-1.-p1级- rj)和t=0。应按照1/0=∞; 实际上,我们有Aj=0和tj=∞ 如果(且仅当)Rj=Rj+1=····=Rn。如(2.7)所示,我们可以依次求解每个间隔的ODE(2.2)[rj-1,rj]。设t=0。假设我们已经找到t,tj公司-1和ρ(t)表示t∈ [0,tj-1]. 然后第j个间隔上的代码读取ρ′(t)=Aj2cjp1- ρ(t),初始条件为ρ(tj-1) =rj-1解由(2.7)给出,而tjis通过条件ρ(tj)=rj确定。最后,让β∈ (0,1)。如有必要,通过向网格中添加β,我们可以在不丧失一般性的情况下假设β=rj,对于某些j∈ {1,…,n},然后β分位数是Tβ=tj=Pjj=14cjAj(p1- rj公司-1.-p1级- rj)。3平均场委托-代理问题我们已经看到,对于给定的奖励方案R,存在唯一的(确定性)平衡状态ρ,因此对于α∈ (0,1),时间tα(R)=inf{t≥ 0:ρ(t)≥ α} ∈ (0, ∞]具有确定性且定义明确。这是人口的α-比例达到目标之前的时间,或者等效地,Tα是平衡到达时间τ分布的α-分位数*.在本节中,我们确定α∈ (0,1)且总奖励预算B>0,并根据约束thattrr(R)dr最小化Tα(R)的奖励方案R≤ B、 这对应于第二个最佳意义上的委托代理问题:规划者可以为代理设定奖励,但不能支配他们对控制的选择。

15
kedemingshi 在职认证  发表于 2022-6-1 05:07:41
委托人认为,当代理的α比例达到其目标时,她的项目就完成了,并希望找到最短的完成时间t*α=infR∈R: RR(R)dr≤BTα(R),(3.1),其中R是所有奖励方案的集合。我们注意到,对于α=1,我们有Tα(R)=∞ 对于所有R,我们不考虑这种情况。另一方面,T*α<∞ 对于所有α∈ (0,1)因为这已经通过在α处切割的统一奖励R完成;参见(2.6)。对于我们的结果,需要对成本系数c进行额外的假设:r 7→c(r)(1)- r) 2- ris下降。(3.2)下面的备注3.2更详细地讨论了该假设。校长问题的解决方案如下所示。定理3.1。让c满足(3.2)。奖励预算B>0和α∈ (0,1),存在a.e.唯一最优奖励方案R*达到最小完成时间T*(3.1)的α,由*(r) =BC(rc(r)2- r+Zαr1- src(s)2- sds)[0,α](r),(3.3)和最小完成时间isT*α=4CB,其中C=Zαpc(r)(2- r) 1个- rdr。(3.4)相应的平衡力为λ*(r) =B2Cp(2- r) c(r)[0,α](r)。在成本c不变的特殊情况下,我们有*(r) =BC′√2.- r+对数(1+√2.- α)(1 -√2.- r) (1)-√2.- α)(1 +√2.- r)[0,α](r),T*α=4cC′2B,C′=C√c类=√2.-√2.- α+对数(1+√2.- α)(1 -√2)(1 -√2.- α)(1 +√2).图1(在简介中呈现)显示了R*, λ*和ρ表示恒定成本系数c。如前所述,R*是[0,α]上的严格递减性和凹度,以及α处的不连续性。平衡力λ*在[0,α]上严格递增。对于常规c,产品√cλ*正在增加,但λ*不必如此。备注3.2。假设(3.2)是满足的,尤其是如果c在下降,这在我们考虑的应用中肯定是成立的。

16
何人来此 在职认证  发表于 2022-6-1 05:07:44
如果我们支持c是可微的,则该假设等价于满足c′(r)的导数c′≤c(r)(2)-r) (1)-r) ,其中一个有效条件是C′(r)≤ c(r)/2。因此,如果相对于c的水平有限,c的增加是允许的。当假设不满足时,(3.3)不再描述委托代理问题的解决方案;事实上,(3.3)不是递减函数,因此也不是奖励方案。定理3.1的证明表明,找到最优奖励方案仍然可以表述为凸优化问题;然而,R上的单调性约束现在是绑定的,这阻碍了找到显式解决方案。我们也可以问相反的问题:给定α∈ (0,1)和期望完成时间T>0,使校长能够实现T的最低预算是多少?答案来自定理3.1,通过反转(3.4)。推论3.3。让c满足(3.2)。G ivenα∈ (0,1)和T>0,使委托人能够实现完成时间T的最低预算*α≤ T是B*=4C/T,其中C由(3.4)给出。4 N参与者问题在本节中,我们研究了一个有众多参与者的竞争版本以及相应的委托代理问题版本。这些公式与平均场公式之间的关系将在第5.4.1节“N人游戏”中确定。我们考虑一个有N人的游戏,其中N≥ 1是固定整数。在任何时间t,每个玩家i观察已经驱动的玩家数n,并选择一个影响级别λi(n)∈ R+。假设玩家i使用反馈控制λi,所有其他玩家使用反馈控制λ-i。

17
mingdashike22 在职认证  发表于 2022-6-1 05:07:47
通过ξλi,λ-i(t)在t时到达的玩家数量;i、 e.,ξλi,λ-i(t)=NXi=1{τi≤t} ,其中τi=inf{t≥ 0:Rtλi(ξλi,λ-i(s))ds=Zi}是层i的到达时间,τj=inf{t≥ 0:Rtλ-i(ξλi,λ-i(s))ds=Zj}是对一些具有单位速率的独立指数随机变量{Z,…,ZN}的游戏者j 6=i的到达时间。在这种情况下,国家过程的存在是显而易见的;我们可以看到(1{τi≤t} ,ξλi,λ-i) 作为值在{0,1}×{0,1,…,N}的马尔可夫纯跳跃过程。我们强调,我们现在使用的数字大于到达球员的分数作为状态变量。让Rn∈ R+是在第n位完成的奖励;如前所述,我们假定(Rn)1≤n≤Nis在减少,我们认为RNis支付的顶层永远不会到达。此外,当玩家到达时,让cn>0作为成本系数。那么参与者i的目标是最大化ji(λi;λ-i) =E“Rξλi,λ-i(τi)-Zτicξλi,λ-i(s)λi(ξλi,λ-如果arg maxλiJi(λi;λ)=λ,则i(s))ds#和λ是(对称)平衡最优控制。对于0≤ n≤ N-1,到达前游戏者i的函数值isvn:=supλiE“Rξ(τi)-Zτicξ(s)λi(ξ(s))dsξ(0)=n#式中ξ:=ξλi,λ-i、 我们还召集了vN:=RN。备注4.1。最后一个玩家永远不会到来。的确,一旦N- 1名球员到达,剩余球员达到最佳值vN-1使用控制λi≡ 0,实际上是vN-1=RN=vN。这是因为有一个约定,RN是支付给从未到达的球员的。另一方面,由于通过使用控制λi可以渐近获得相同的值,因此,为了存在平衡,此约定是必要的≡ ε,小ε>0。提案4.2。N人博弈具有唯一的纳什均衡。平衡值函数(vn)0≤n≤Nis后向递归的唯一解vn=Rn+1+2(N- n- 1) vn+11+2(N- n- 1), 0 ≤ n≤ N- 1.vN=RN。

18
可人4 在职认证  发表于 2022-6-1 05:07:50
(4.1)唯一平衡最优控制i sλ*(n) =Rn+1- vn2cn,0≤ n≤ N- 1.(4.2)4.2 N人委托-代理问题接下来,我们考虑第3节介绍的平均场委托-代理问题的N人版本。给定n∈ {1,…,N-1} 和(非负,递减)奖励方案(Rn),letTn=inf{t≥ 0 : ξλ*(t) =n}是直到n玩家到达的(随机)时间,玩家使用唯一均衡最优控制λ*对于(Rn)和(固定、正)成本系数(cn);参见(4.2)。在下面,我们将发现写λ很有用*n大于λ*(n) 无论何时我们处于n人模式。考虑到人均向上预算B>0,委托人选择向上方案(Rn),以便在预算约束条件下,将预计完工时间ETn最小化≤ 注:与(3.2)类似,weshall假设cNsatis fiescnn≤ 美国有线电视新闻网-1(2N- 2n+1)(2n- n- 1) 4(N- n- 1) (N)- n+1)(2N- n) ,n<n;(4.3)同样,当n 7→ cNnis常数或递减。定理4.3。让Cn满足(4.3),定义yn=0,yn=scnN(N- n- 1) (N)- n) (2N- n- 1) ,n<n。预算的标准化对于收敛结果是必要的,如在后续部分中。我们通过将B视为平均场限制中的总预算,以及N人环境中的人均预算,间接地做到了这一点。

19
nandehutu2022 在职认证  发表于 2022-6-1 05:07:53
等效地,可以通过将质量1/N分配给N人游戏中的每个代理,并将B视为总预算,使人口质量正常化。如果人均奖励预算B>0,则存在唯一的最优奖励方案(R*n) 达到最小预期完成时间ET*n、 给定byR*n=BC(yn-1+n-1Xk=n-1ykN-k- 1) {n≤n} ,以及最小预期完成时间isET*n=4CB,其中C=√Nn型-1Xn=0scn(2N- n- 1) (N)- n) (n)- n- 1).相应的平衡最优控制为λ*n=B2CsN(n-n- 1) cn(N- n) (2N- n- 1) {n<n}。4.3规模效应我们以两种不同的方式简要讨论人口规模N对校长问题的影响来结束本节。为了使问题具有可比性,我们假设cNn≡ c是N.(i)的常数独立项。首先,我们如上所述考虑一个具有给定人均预算TB的主体,其目的是最小化预期时间,直到达到人口的α比例。图3中的左面板显示了负尺寸影响:n=αN 正在增加;也就是说,人口规模的增加会对主体产生不利影响。(ii)其次,我们确定总预算K=NB和完成人数n。然后,ETNn=NKPn编号-1n=0c1类-不适用(1+1-(n+1)/n)1/2在N中严格递减,极限等于零(图3中的右面板)。也就是说,主要目标是实现固定数量的完井,这得益于人口规模的增加。5收敛到平均场在本节中,我们表明N人竞争和委托代理问题收敛到其平均场对应的N→ ∞.2 4 6 8 10 12 14对数0.740.750.760.770.780.790.80.810.820.83ETNNCase(i)2 4 6 8 10 12 16对数0.050.10.150.20.250.30.350.4ETNnCase(ii)图3:当α=0.5且b=1时,左面板显示负尺寸效应。当n=3和k=2时,右面板显示正尺寸效应。

20
nandehutu2022 在职认证  发表于 2022-6-1 05:07:56
在两个面板中,c≡ 1和最小预期完成时间是根据logN绘制的。5.1 N人均衡的收敛我们考虑第2节的平均场设置,采用固定的奖励方案和成本系数c,以及一个有奖励(RNn)和成本(cNn)的N人博弈。我们的目的是证明如果RN→ R和cN→ c,则相应的平衡点收敛。如果我们从奖励方案R开始:[0,1]→ R+在平均场设置中,RN的一个明显选择是采样RNn=RnN型. 由于Ris在减少,我们的NPNN=1RNn≤RR(r)dr;i、 例如,这种离散化可能(并且通常会)减少累积奖励。另一种选择是移动平均值RNn=NRn/N(N-1) /NR(y)dy,保留奖励。接下来,我们将介绍一个条件,该条件旨在涵盖这两种选择中的任何一种,等等。回想一下R:[0,1]→ R+是递减的,分段Lipschitz连续且在R=1时左连续。设0=r<r<…<rm<rm+1=1[0,1]的有限划分,使得R是每个区间上的Lipschitz(ri-1,ri)。对于我们的结果,我们假设SUPR∈Sm+1i=1INi注册护士注册护士- R(R)≤KN(5.1),对于一些独立于N的常数K,其中INi=[ri-1+1/N,ri- 1/N]对于i=1,m和INm+1=[rm+1/N,1]。同样,我们假设SUPR∈[0,1]中国大陆注册护士- c(r)≤千牛。(5.2)下一个结果表明,N人均衡收敛到平均场均衡,即N→ ∞. 因此,除了第2节所述的连续参与者直接推导外,它还为平均场公式提供了第二个jus ti fication。定理5.1。设RN,R和cN,c满足(5.1)和(5.2),设vN,v和λN,λ*分别为相应的值函数和均衡最优控制。然后是SUPR∈[0,1]| vN注册护士- v(r)|=O(1/√N) ,supr∈Sm+1i=1INi |λN注册护士- λ*(r) |=O(1/√N) 。备注5.2。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-1 12:49