楼主: 可人4
938 34

[量化金融] 平均场比赛 [推广有奖]

21
kedemingshi 在职认证  发表于 2022-6-1 05:07:59
如果对于某些α<1的情况,R(R)=0(α,1),则ODE(A.2)在边界上是非退化的,定理5.1中的收敛速度可以提高到O(1/N);参见定理的证明。特别是,这适用于最优奖励方案R*对于OREM 3.1.5.2中的委托人问题,第3节中的收敛性和ε-最优性,我们确定了一个成本系数c,满足(3.2),目标比例α∈ (0,1)和预算B>0。我们在定理3.1中看到,在平均场设置中,存在唯一的奖励方案R*达到最小(确定性)时间T*直到达到人口的α比例。对于给定成本满足(4.3)且人均预算为B的N人情况,我们在定理4.3中看到,存在一个唯一的奖励方案RN,最小化直到N人到达的预期时间ETNN。在下面的结果中,我们考虑n=αN, 所以n/n的比例趋于α,并且表明如果cN→ c、 预期完成时间以及相应的奖励方案收敛于asN→ ∞.定理5.3。让cN→ c在(5.2)的意义上。然后ETN公司αN- T*α= O(1/N),supr∈[0,α]注册护士注册护士- R*(r)= O(1/N)。这包括,例如,cNn=c(不适用)。我们不考虑asin(5.1)中更普遍的趋同,因为这将导致下面更复杂的陈述,而不会实质性地扩大范围。下一个结果解决了不同情况下委托人问题的收敛性:它表明,如果委托人应用(离散化)最优奖励方案R*根据N人游戏中的平均场设置,而不是定理4.3中的精确最优方案RN,则R*对于预期完工时间的最小化,仍然是ε-最优的。推论5.4。让cN→ (5.2)意义下的c,并设R(N)是R的离散化*满足(5.1)。

22
能者818 在职认证  发表于 2022-6-1 05:08:02
然后完成时间T(N)αNR(N)满足条件下的最优博弈ET(N)αN- ETN公司αN= O(1/N);也就是说,对于N人委托代理问题,奖励方案R(N)是O(1/N)-最优f。A证据A。引理2.1第2节的证明。λ的分段Lipschitz性质意味着(2.2)具有唯一的连续解ρ。该函数是非负的、递增的、全局Lipschitz连续的,并且除了在许多点(对应于跳到λ的点)上ρ的左导数和右导数可能不一致外,该函数是连续可微分的。设ρ(t)=1- 经验值(-Rtλ(ρ(s))ds)。根据大数定律(命题B.2)和(2.1),u{i:τiλ(ω)∈ [0,t]}=P{ω:τiλ(ω)∈ [0,t]}=(R)ρ(t)几乎肯定成立。另一方面,ρ的导数满足ρ′(t)=λ(ρ(t))(1- ρ(t))a.e.,因此,前提条件的唯一性产生ρ=ρ。定理2.2的证明。(i) 假设∧∈ ∧是一个平衡最优控制,设ρ为相应的平衡状态过程,设v为任何给定游戏者到达前(2.3)的对应值函数。使用常数控制λ≡ 0表示R(1)≤ (R)v(r)≤ R(R)和v(1-) = R(1);回想一下,R在R=1时保持连续。Letr=inf{r:r(r)=r(1)}。使用λ≡ 0还显示“v”≡ [R,1]上的R(1),而[0,R]上的v<R,因为只有零成本的控制才能达到R(1)<R(R)。在[0,R]上的低质量R(1)<R(R)也意味着在[0,R]上的λ>0,事实上,回顾一下∈ ∧,即使∧是a.e.在r<r的任何区间[0,r]上从零开始一致有界。控制论论证表明∧v在任何此类区间上都是Lipschitz。确实,让0≤ r<随机选择h>0,使r+2h<r。

23
能者818 在职认证  发表于 2022-6-1 05:08:06
我们可以将从r开始的最优控制|Μ与控制λ进行比较,使得λ=[r,r+h]上的0,[r+h,r+2h]上的a'λ,[r+2h,1]上的'λ),其中常数a≥ 选择1时,λ沿ρ在[r,r+2h]上的积分与|λ在相同间隔上的积分一致。然后,λ的交换成本和预期回报的损失都以常数(仅取决于r)乘以h为界,因为如果λ达到rankin[r+2h,1),则λ达到相同的排名,而λ在[r,r+2h]中排名的概率以常数乘以h为界。由于λ是从r+h开始的控制问题的容许控制,因此0≤ “v(r)-?v(r+h)≤ 如所述。特别是,“v”是绝对连续的,并且是可区分的。通过动态规划,值函数v必须满足Hamilton–Jacobi方程≥0{l[R(R))- 五(r)]- c(r)l}+(R)λ(r)(1- r) 在[0,1]上,v′(r)=0,v(1)=r(1)。此外,最优控制λ必须达到a.e.r的最大值,即在[r,1]上,v=r,且在[0,r]上,v<r,因此λ(r)=r(r)- ?v(r)2c(r)a.e.(a.1)和?v满意度(r)- v(r)+2(1- r) v′(r)=0 a.e.【0,r】,v≡ R(1)开[R,1]。(A.2)(ii)利用R的正则性,我们可以看到(2.5)的函数v在[0,1]上是isLipschitz,满足v(1-) = R(1)。通过设置v(1)=R(1),我们将v推广到[0,1]上的lipschitz函数。直接计算表明V满足(A.2)和λ*of(2.4)是相应的最大化器(A.1)。此外,λ*∈ Λ. 然后,验证参数得出v是值函数,λ*是一种最优控制。(iii)仍需证明(A.2)至多有一个绝对连续的解决方案。实际上,如果vand vare解,那么w=v- vis绝对连续且令人满意2(1- r) w′(r)=w(r)a.e.在[0,r]上,w≡ [r,1]上的0。如果r<1,这是一个Lipschitz ODE,它直接遵循w≡ 0是唯一的解决方案。

24
nandehutu2022 在职认证  发表于 2022-6-1 05:08:08
如果r=1,我们设置u(t)=w(1-e-2t)对于t≥ 0; 然后u satis fiesu′(t)=u(t)在[0,∞) 因此u(t)=u(0)et,但u(∞) = w(1)=0,则得出u≡ 0,因此w≡ 需要时为0。提案证明2.5。设V(r)=E[r(ρ(τ))|ρ(0)=r]。ρ的常微分方程具有唯一解ρ(t)=1- (1 - r) e类-t的2λt≥ 因此,V(r)=E[r(1- (1 - r) e类-2λτ)]=Z∞λe-λxR(1- (1 -r) e类-2λx)dx。变量的变化表明V(r)与(2.5)一致。提案证明2.6。注意,Rn,R有一个统一的上界givenby supnRn(0)。此外,通过单调性,收敛Rn→ R在R的每个连续性区间上是一致的。直接从(2.5)可以看出,值函数vn一致收敛于对应的v。类似地,(2.4)得出最优控制λ*nconverge pointwise to their reporterλ*, 并且在R的Lipschitz连续性的每个区间上都是一致的。此外,序列(λ*n) 。根据ODE(2.2),这需要Lipschitz常数的上界(ρn)。因此,在传递到子序列后,(ρn)一致收敛到极限值ρ。为了验证ρ=ρ,必须证明ρ在所述区间的每个区间上求解了ODE(2.2)定义ρ,这是由(λ)的一致收敛得出的*n) 。最后,通过一个子序列参数,整个序列(ρn)必须收敛到ρ。A、 2第3a节的证明作为定理3.1 pro的准备,我们首先表明,不应将奖励分配给α以下的等级-这是非常直观的,因为规划人员不关心等级α之后到达的代理。反之亦然。引理A.1。值T*如果限值限制为R,则(3.1)的α不变∈ 满足[0,α]上的R>0和(α,1)上的d R=0。证明。对于第一个属性,支持R∈ R在R处消失∈ [0,α),因此在[r,1]上。

25
nandehutu2022 在职认证  发表于 2022-6-1 05:08:11
然后,(2.4)的平衡力λ也在r处消失,根据Kolmogorov方程(2.2),这意味着状态ρ(t)永远不会超过r,因此tα(r)=∞.要查看第二个属性,请让R∈ R和set^R=R1【0,α】;那么^R∈ R、 对于R∈ [0,α],(2.4)的相应平衡力λ和^λ满足^λ(r)=^r(r)-√1.-rRr^R(y)√1.-ydy2c(右)≥R(R)-√1.-rRrR(y)√1.-ydy2c(r)=λ(r),不等式为严格的ifRαr(y)√1.-ydy>0。因此,如果R在(α,1)上不消失,则R在[0,α]上产生更大的平衡效应,因此当Tα(R)<∞, 根据(2.2)。现在我们可以通过变分法论证来证明这个定理。定理3.1的证明。LetR′=R∈ R:∫ R(R)dr≤ B、 Tα(R)<∞, R1(α,1)=0.如上所述,R′6= 通过(2.6)和引理A.1,可以证明*是R′中唯一的优化器。此外,我们在Lemma A.1的证明中看到λ*对于R,a.e.在[0,α]上严格正∈ R′。因此,ρ急剧增加,我们得到Tr(R)=ρ-1(r)表示r∈ [0,α).微分ρ-1(r)并使用ρ和(2.4)的ODE(2.2),我们得到tα(r)=Zα(1)- r) λ*(r) dr=Zα2c(r)√1.- rR(R)√1.- r-RαrR(s)√1.-十二烷基硫酸钠dr,R∈ R′。(A.3)我们从(A.3)中看到,R 7→ Tα(R)在R′上严格凸,达到a.e.等价。这意味着最多有一个最优R∈ R′。接下来,我们推导出一个最优性的充分条件。我们首先重新参数化优化问题:对于R∈ R′,我们考虑F(R)=fR(R)=R(R)√1.- r-ZαrR(s)√1.- sds,r∈ [0, α].映射R 7→ fRis在R′上一对一,因为R可以从fviaR(R)=f(R)中恢复√1.- r+Zαrf(s)2(1- s) 3/2秒。(A.4)事实上,如果R是可微的,那么f′(R)=√1.- rR′(r)和部件集成度sr(r)=r(α)-Zαrf′(s)√1.- sds=f(α)√1.- α-Zαrf′(s)√1.- sds=f(r)√1.- r+Zαrf(s)2(1- s) 3/2秒,现在是通用R∈ R′后接近似值。

26
能者818 在职认证  发表于 2022-6-1 05:08:14
Fubini\'s定理表明RαR(R)dr=Rα(2-r) f(r)(1)-r) 2月3日。因此,回顾α<1,R′的图像F在R 7下→ fRis所有分段Lipschitz非负递减函数f的凸集:[0,α]→ R使得(A.6)是有限的,并且预算约束zα(2- r) f(r)(1)- r) 2月3日≤ B(A.5)满足要求。我们通过轻微滥用符号为Tα(R)写Tα(fR);然后(A.3)我们得到tα(f)=Zα2c(r)√1.- rf(r)dr,f∈ F、 (A.6)映射F 7→ Tα(f)是凸的且是有限值的,很明显,f*∈ F等时当an仅当ε7→ φ(ε)=T((1- ε) f级*+ εf),[0,1]→ 在ε=0时,所有f的最小值∈ F、 通过凸性,该函数在ε=0时具有右导数φ′(0),且φ在ε=0时达到最小值,当且仅当φ′(0)≥ 注意,对于任何凸函数Д,右差商(Д(x+ε)-Д(x))/ε满意度Д′(x)≤ (Д(x+ε)-Д(x))/ε≤ ~n(x+1)- ν(x)表示ε≤ 1、利用这些界和支配收敛,我们可以通过积分φ′(0)=Zα下的微分计算φ′(0)-2c(r)(f(r)- f*(r) ()√1.- 射频*(r) dr.(A.7)Let r*如(3.3)所示;然后对应的函数f*= fR公司*由F给出*(r) =BCrc(r)(1- r) 2- r、 r∈ [0, α]. (A.8)回顾α<1和thatc(r)(1-r) 2-ris减小,我们直接验证f*∈ F、 此外,预算约束(A.5)满足于平等。修复任意f∈ F、 使用(A.7)分母中的表达式(A.8),我们得到φ′(0)=-2CBZα(2- r) (f(r)- f*(r) )(1- r) 2月3日。自f起*满足等式(A.5),满足不等式(f),上述积分为非正积分。因此,φ′(0)≥ 0,表示f*∈ F等时,因此R*∈ R是最优的。T的公式(3.4)*α由(A.6)和(A.8)得出,λ的公式*遵循via(2.4)。A、 3第4节提案4.2的证明。修正游戏者i并假设所有其他游戏者使用控制λ-i。

27
mingdashike22 在职认证  发表于 2022-6-1 05:08:18
通过动态规划,到达满足度λi之前玩家i的值函数vn≥0λi[Rn+1- vn]- cnλi+ λ-i(n)(n)- n- 1) (vn+1- vn)=0表示0≤ n≤ N- 2、对于n=n- 1,注释4.1和我们的约定同样适用,即vN=RN。因此,(4.2)是玩家的最优控制,因此(Rn+1- vn)4cn+λ-i(n)(n)- n- 1) (vn+1- vn)=0。假设感应式vn+1≤ Rn+1,此二次方程具有唯一的非负根vn,且Vnsaties 0≤ 越南≤ 注册护士+1≤ 注册护士。在阿吉文平衡中,一致性条件λi=λ-I包括RN+1- vn+2(N- n- 1) (vn+1- vn)=0,n=0,N- 1,(A.9)或等效(4.1),其显然具有唯一的解决方案。相反,我们可以直接验证(4.1)和(4.2)定义了平衡。定理4.3的证明。我们首先观察到Tn是独立指数随机变量(无论何时)的和,thusETn=n-1Xn=0(N- n) λn.(A.10)此外,与引理A.1类似,考虑n的Rn>0的奖励方案是必要的≤ n>n时,nand Rn=0。事实上,第一项索赔是从(4.2)中直接得出的。为了获得第二个,我们通过对比(Rn)与由^Rn=Rn{n定义的方案进行论证≤n} 。命题4.2表明,在NAND之前,^RN导致的平衡控制要大得多,因此完成时间要小得多。因此,我们只考虑n=n以下的奖励方案。从(4.1)、(4.2)和(A.10)中,我们可以看到ETn:Rn+→ [0, ∞] 是(R,…,Rn)的严格凸连续函数。此外,R定义的可行集≥ R≥ ··· ≥ 注册护士≥ 0和PNN=1Rn≤ nb是非空的、凸的和紧的。因此,存在唯一的最优报酬方案。在剩下的证明中,我们明确地确定了这个奖励方案。

28
mingdashike22 在职认证  发表于 2022-6-1 05:08:20
为此,定义xn=0和xn=Rn+1- Vn如果n<n,则可通过(4.2)和(A.10)将目标函数表示为asETn=n-1Xn=02cn(N- n) xn。从(4.1)中,我们得到Rn+1- Rn+2=1+2(N-n-1) 2(N-n-1) xn公司- xn+1,因此总回报Pnn=1Rn=Pnn=1n(Rn- Rn+1)可以表示为nXn=1Rn=nXn=1n1+2(N- n) 2(n- n) xn公司-1.- xn公司=n-1Xn=02N- n- 12(N- n-1) xn。求解xn的约束优化问题∈ R最小值-1Xn=02cn(N- n) xnsubject吨-1Xn=02N- n- 12(N- n- 1) xn公司≤ NBC可以用拉格朗日乘子法求解。我们发现,xn=2scn(N- n- 1) θ(N-n) (2N- n- 1) ,n=0,n- 1其中拉格朗日乘数θ满足√θ=NBn-1Xn=0scn(2N- n- 1) (N)- n) (n)- n- 1).注意,θ和xnare通过C=B与C和ynof定理4.3相关√Nθ/2和xn=2yn/√Nθ=Byn/C。我们有Rn≥ 0为xn-1.≥ 0,andRn-Rn+1=BC1+2(N-n) 2(n-n) yn公司-1.-yn公司≥ n<n时为0;这里最后一个不等式等于(4.3)。因此,奖励方案(R*n) 与优化因子(xn)相关的事实上是非负且递减的,下面是(R*n) 是最优的奖励方案。R的公式*, T*nandλ*然后直接计算。A、 定理5.1第5节的证明。让N≥ 4足够大,以使δ:=1/N满足<1-√δ -δ. 这尤其意味着1-rm>δ+√δ > 2δ.我们可以为vNnasvNn=g重写递归(4.1)nN型vNn+1+1.- g级nN型RNn+1(A.11),其中G(r)=2(1- r- δ)δ + 2 ( 1 - r- δ).使用(2.5),我们以类似的形式写出平均场值:vnN型= fnN型vn+1N+1.- fnN型RNn+1+E1,n(A.12),其中F(r):=r1- r- δ1 - 兰德E1,n:=√1.- nδZ(n+1)δnδR(y)- 注册护士yN公司√1.- 伊迪。接下来,我们估计编号:=vNn公司- vnN型. 对于最后一级,我们有N个=循环神经网络- R(1)≤ Kδ乘以(5.1)。

29
nandehutu2022 在职认证  发表于 2022-6-1 05:08:23
从1开始,排名倒数第二- δ ≥1.-√δ>rm+δ,(5.1)再次暗示N-1=循环神经网络- 五(1- δ)≤√δZ1-δ| RNyN公司-R(y)|√1.- ydy公司≤ Kδ。对于n≤ N-2,从(A.11)中减去(A.12)并使用该g(r)≤ 1小时0≤ r≤ 1.- δ、 我们得到了n≤ n+1+E1,n+E2,n,(A.13),其中E2,n=g级nN型- fnN型·vn+1N- RNn+1.接下来,我们估计E1,nand E2,n。为此,定义:=n将非常有用- √N 注意,n≤ nif且仅当nδ≤ 1.-√δ.估计E1,n.如果n+1≤ n≤ N- 2,则rm+δ<nδ≤ 1.- 2δ和(5.1)表示1,n≤ Kδ1-r1级- nδ- δ1 - nδ!≤ Kδ。另一方面,如果0≤ n≤ nand[nδ,(n+1)δ] 对于某些i,则为(5.1)和1- nδ≥√δimplyE1,n≤ Kδδ1-nδ1+q1-nδ-δ1-nδ≤ Kδ3/2。我们观察到,最多有3m个指数n,其中n≤ nand[nδ,(n+1)δ]不包含在任何INi中。对于这些n,我们使用R的有界性和不等式1- nδ≥ 1.- rm-δ > (1 - rm)/2获得1,n≤ (R(0)+Kδ)1-r1级- nδ-δ1 - nδ<2(R(0)+K/4)δ(1)- rm)=:Cδ。总之,E1,n≤Kδ,如果n+1≤ n≤ N- 2,Kδ3/2,如果n≤ nand[nδ,(n+1)δ] 对于一些i,Cδ,否则(最多3m个实例)。(A.14)E2的估计,n.泰勒定理意味着对于所有x∈ [0, 1],0 ≤√x个-2x1+x≤(1 - x)4x3/2+(1+x).x=1时使用此-δ1-ryields | g(r)- f(r)|≤δ(1 - r) h类1.-δ1 - r,其中h(x):=8x3/2+(1+x)。对于0≤ n≤ Nrm,我们有δ1-nδ≤δ1-rm≤和thusE2,n≤ (R(0)+K/4)δ(1)- rm)小时=: Cδ。对于N rm<N≤ N- 2,我们有(n+1)δ>rm+δ,如下所示vn+1N- RNn+1=p1级- (n+1)δZ(n+1)δR(y)- R((n+1)δ)√1.- ydy+R((n+1)δ)- RNn+1≤ K(1- (n+1)δ)+Kδ=K(1)- nδ)。因此,E2,n≤ K(1- nδ)δ(1- nδ)h1.-δ1 - nδ≤Kh公司δ<Kδ,其中我们使用了1- nδ≥ 2δ.与E1,n的估计一样,如果Nrm<n,则可以改进界≤ nand因此1- nδ≥√δ.

30
何人来此 在职认证  发表于 2022-6-1 05:08:26
在这种情况下,我们有e2,n≤ Kh公司δ3/2<Kδ3/2。总之,E2,n≤Kδ,如果n+1≤ n≤ N- 2,Kδ3/2,如果Nrm<n≤ n、 Cδ,如果n≤ 尼泊尔卢比。(A.15)合并估计数。合并(A.13)、(A.14)和(A.15)并调用N-1.≤ Kδ,对于n+1,我们得到≤ n≤ N- 2该n≤ N-1+Kδ(N- 1.- n)≤ Kδ+K√δ<K√n的δ和≤ 第n个n≤ n+1+(2K+C)δ3/2(n+1- n) +3mCδ≤K√δ+(2K+C)√δ(1 -√δ+δ)+3mCδ<C√δ.把所有东西放在一起,我们有sup0≤n≤Nn≤最大值(5K/2,C)√N、 需要注意的是| v′(r)|=| r(r)- v(r)| 2(1- r)≤(K,rm<r<1,r(0)2(1-rm),0≤ r≤ rm,因此,越南注册护士- v(r)≤ 注册护士+v注册护士N- v(r)≤ 注册护士+kv′k∞N<C√N、 自λ起*(r) =r(r)-v(r)2c(r)和λNn=RNn+1-vNn2cNn,λn的收敛性来自于值函数和代价系数的一致收敛性,奖励方案的几乎一致收敛性,以及1/c的一致有界性。定理5.3的证明。我们首先观察到Riemann-sumCN的收敛:=2NαN-1Xn=0scNn(2-n+1N)(1-nN)(1-n+1N)→Zαpc(r)(2- r) (1)- r) dr=:C。收敛速度为O(1/N),因为cns以O(1/N)和√2.-r1级-ris-Lipschitz-continuouson[0,α]。利用定理3.1和4.3的公式,我们得出结论Limn→∞ETN公司αN= 画→∞4(CN)B=4CB=T*α,速率为O(1/N)。关于奖励方案的收敛性,我们大致观察到,对于r≤ α、 y型注册护士-1=scN注册护士-1N(N- 注册护士)(N)- 注册护士+ 1) (2N- 注册护士)→rc(r)2- r=y(r)和NαN-1Xk=注册护士-1yk1-k+1N→Zαry(s)1- sds,均匀分布在r中∈ [0,α],速率为O(1/N)。因此,定理3.1和4.3中的公式得出注册护士=BCN公司y注册护士-1+αN-1Xk=注册护士-1ykN- k- 1.→卑诗省y(r)+Zαry(s)1- 十二烷基硫酸钠= R*(r) 在r中均匀∈ [0,α],速率为O(1/N)。推论5.4的证明。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-1 15:00