楼主: 大多数88
436 12

[经济学] Stackelberg对策的多尺度控制 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

68%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
62.9698
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
23514 点
帖子
3880
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
摘要翻译:
本文给出了一个具有大量跟随者的线性二次Stackelberg对策,并导出了无穷多个跟随者的平均场极限。研究了最优化问题与平均场极限的关系,建立了一致性条件。最后,我们提出了一种基于导出模型的数值方法,并给出了数值结果。
---
英文标题:
《Multiscale Control of Stackelberg Games》
---
作者:
Michael Herty, Sonja Steffensen, Anna Th\\\"unen
---
最新提交年份:
2020
---
分类信息:

一级分类:Mathematics        数学
二级分类:Optimization and Control        优化与控制
分类描述:Operations research, linear programming, control theory, systems theory, optimal control, game theory
运筹学,线性规划,控制论,系统论,最优控制,博弈论
--
一级分类:Economics        经济学
二级分类:Theoretical Economics        理论经济学
分类描述:Includes theoretical contributions to Contract Theory, Decision Theory, Game Theory, General Equilibrium, Growth, Learning and Evolution, Macroeconomics, Market and Mechanism Design, and Social Choice.
包括对契约理论、决策理论、博弈论、一般均衡、增长、学习与进化、宏观经济学、市场与机制设计、社会选择的理论贡献。
--
一级分类:Mathematics        数学
二级分类:Dynamical Systems        动力系统
分类描述:Dynamics of differential equations and flows, mechanics, classical few-body problems, iterations, complex dynamics, delayed differential equations
微分方程和流动的动力学,力学,经典的少体问题,迭代,复杂动力学,延迟微分方程
--

---
英文摘要:
  We present a linear--quadratic Stackelberg game with a large number of followers and we also derive the mean field limit of infinitely many followers. The relation between optimization and mean-field limit is studied and conditions for consistency are established. Finally, we propose a numerical method based on the derived models and present numerical results.
---
PDF下载:
--> English_Paper.pdf (382.98 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:STACKELBERG stackel stack Berg Ber

沙发
nandehutu2022 在职认证  发表于 2022-4-19 18:37:20 |只看作者 |坛友微信交流群
Stackelberg对策的多尺度控制Michael Herty*,Sonja Ste Ansensen,Anna Thunen,2020年11月9日我们给出了一个具有大量跟随者的线性二次Stackelberg对策,并得到了在许多跟随者中的均值极限。研究了最优化与平均极限之间的关系,建立了一致性条件。关键词:多级博弈、多尺度控制、S tackelberg博弈、Nash均衡、Mean-FieldGameMSC(2020):82B40 91A65 49N80 91A161介绍了多个参与者竞争目标的经典优化理论。早期考虑和经济应用在[33]中得到了证明。纳什通过对均衡概念的形式化,提出了一个理论上的bre akthrough[30]。Stackelberg通过把一个参与者放在一个特殊的位置,称为领导者[34],扩展了模型,从而稳定了Stackelberg对策类。在过去的几十年里,这种多级游戏作为分析多种竞争利益系统的工具。一个突出的应用是使用多领导跟随者博弈分析电力市场[6,18,21]。其他应用程序包括TRA Hillary C和tolling[16,22]以及电信[31,35]。这些应用程序通常涉及对大量追随者进行建模。例如,所有用户对电力的需求都由一个独立的系统运营商(ISO)来表示,这也为目前电力市场的实践提供了一个精确的模型,如[8,9,10]。许多通勤交通收费模型被建模为一个寻求Wardrop平衡的单元,而这些单元之间的相互作用在道路交通中不起作用,例如[16]。类似地,在[35]中,互联网提供商ar e建模为个人领导者,但数据Tra thellc没有进一步讨论。我们对Stackelberg游戏的研究感兴趣,可能有很多追随者。在文献[12,15,32]中已经研究了相互作用的主体或跟随者的模型。特别是,作为社会模式的意见形成和共识在[17,28]中进行了讨论。其他应用包括经济和商业市场模型[29]以及TRA的C模型[19]。分析这些交互agent系统的博弈论基础如[23]。文[1]研究了一个两种群模型的控制问题,其中有主导作用的无种群是通过动力学来建模的。然而,这种领先群体的代理人不是g ame理论意义上的领导者。*德国亚琛大学的Herty@igpm.r w th-Aachen.de,RWTH Aachen University,RWTH Aachen University,RWTH Aachen.de,RWTH Aachen University,RWTH Aachen.thuenen@igpm.rwth-Aachen.de,RWTH Aachen University,RWTH Aachen.de,RWTH Aachen University,RWTH Aachen.de,RWTH Aachen University,RWTH Aachen可能是追随者的数量。这个追随者的人口被建模为一个动态系统。我们对博弈的一个均衡感兴趣,我们用有限阶最优性条件来刻画它。我们提出了以下方法:以领导者的控制为参数优化跟随者水平,然后在规则性假设成立的情况下解决领导者问题,参见例如[11]。在优化的最后几个阶段,可以得到模型的平均描述。本文的主要用途是分析优化的互换性,并推导出平均值,即seeFigure 1。

使用道具

藤椅
可人4 在职认证  发表于 2022-4-19 18:37:27 |只看作者 |坛友微信交流群
本文工作的创新之处不仅在于两级问题,而且还在于开环控制方面,与前人研究的feedba ck控制技术相比,C.F.[3,4,2,5]。与[20]相比,我们还得到了一个Stackelberg方程的一致最优性条件。其他相关工作包括[27]中的一个由随机二阶方程所控制的大跟随群体的线性二次Stackelberg对策。在此基础上,将引导者的控制视为一个外生随机过程,解决了跟随者的局部控制问题。这就产生了ε-Nashequilibria,并证明了随着从者数目的增加,ε→0。在[25]中研究了一个相关的模型,其中区分了一个主要的和大量的次要的演奏者。与文献[25,27]的工作相反,我们研究了一个关于球员状态概率密度的偏微分方程(PDE),在此,我们仅限于形式计算。关于测度导数的其它方法、严格的导数和解析结果可以在[13,1,4,23]中找到。本文的结构如下:我们在第2节中首先推导了两个最优控制问题的一致最优性条件。本文研究了一个包含一个s ingle控制的模型和一个eachagent有一个单独控制的seco nd模型。在第3节中,我们将这些结果应用于Sta ckelberg对策。在第4节中,我们导出了一个求解方案3最优性的数值格式。本文通过5.2节单能级问题中的一些数值结果得出结论。本文研究了两个相互作用的ag系统的最优控制问题,这两个问题的本质是控制的应用。第2.1节中的pro ble m由一个控件控制。相反,在第2.2节中讨论的问题为每个主体捕获一个控制,每个最优控制问题的最优性条件可以在导出均值极限之前导出,也可以在导出均值极限之后导出,从而得到两个直接的最优系统。我们比较了这两个系统,并确定了一致性条件,以建立它们之间的联系。引理2.1和引理2.2。注意,上标MO表示mean-offield极限是在o ptimization之前导出的。另见图1.2.1单控制系统我们考虑N个相互作用主体系统的最优控制问题,如下:minutzhj(u,m(~x))+αuidts.t。xi=nnxj=1g(xi,xj,u),xi(0)=xi,0,i=1,。..,N,(1)其中状态xi=xi(t)被认为对于智能体i=1,在RN中。...N和...的初始状态由xi,0给出。所有Agents的级联由~x=(xi)ni=1∈RNN表示。(公共)控制是u=u(t)∈RNU。只要意向性明确,就省略了对时间t的明确依赖。Agents的动力学问题由G:Rn×Rn×Rnu→Rn,在所有的讨论中都可以得到最小值,并选择一个目标泛函在时间范围[0,t]内最小化的共同控制u。函数J:Rnu×Rn→R以控制量u和m为自变量,并假定其为Bedi值。该值m=m(~x)被认为是状态的矩的向量,即m:Rnn→Rn,其中m(~x)=Nnxi=1~m(xi)和~m:Rn→Rn。该目标由标量加权参数α>0的控制u的二次项正则化。假设各智能体同独立且相互作用G对称,我们用re spect计算了mea n-密度hMO=hMO(t,x)的容许va。利用[20,Propo sition 2.1],我们得到了状态变量的平均演化方程和目标泛函形式的最优控制公式:minutzhj(u,mhMO(t))+αuidts.t。

使用道具

板凳
nandehutu2022 在职认证  发表于 2022-4-19 18:37:33 |只看作者 |坛友微信交流群
0=thmo+divx hmozg(x,x,u)hMO(t,x)dx hMO(0,x)=hMO(x),(2)其中mhMO(t)=r~m(x)hmodx。形式上,(1)和(2)的动态和代价被恢复为经验分布:μn(t,x)=nnxi=1δ(x-xi(t)),(3),其中δ表示狄拉克三角洲。同样地,得到了初始l分布hMOis作为以初始数据为中心的经验分布N→∞的极限。引理2.1(单控制系统)。考虑(1)中N个Agent的最优控制问题和(2)中Agent密度HMO:[0,T]×RN→R的最优控制问题。设Hom:[0,T]×rn×rn→Rbe为分布函数,该分布函数满足问题(1)最优性条件的均值极限。在HMO的支持下,(2)的最优性系统的乘数为λ=λ(t,x)。然后,在所有t≥0和所有x的情况下,(1)的最优性条件的平均值解和(2)的最优性条件的平均值解分别由:πxλ(t,x,λ)=-zλhom(t,x,λ)dλ,(4a)正式证明。函数是hOM的边缘:hOM(t,x,λ)=hMO(t,x)hOM(t,x,λ)。(4b)注意,引理2.1中的一致性条件是将(4b)中的概率密度hOM(t,x,λ)分解为概率密度hMO(t,x)和(4a)中的拉格朗日乘子λ和λ(t,x)。引理2.1的证明与下面引理2.2的证明相似,因此省略了引理2.1的证明。2.2个体控制系统我们考虑N个agent的相互作用agent系统,其内容如下:minunnxi=1tzhj(ui,~m(xi))+αuiidts.t。*xi=nnxj=1g(xi,xj,ui),xi(0)=xi,0,i=1,。N(5)与第2.1节相反,每个主体i通过其控制ui=ui(t)∈Rnu来构造模型。形式上,我们得到一个均值最优控制问题:minutzzhj(u,~m(x))+αuifmodx dts.t。0=tfmo+divx fmozg(x,x,u)fMO(t,x)dx fMO(0,x)=fMO(x)(6)与(2)中的问题相比,(6)中的另一个问题是,平均函数u是状态空间的另一个pendenton,即u=u(t,x)。如果选择平均密度fMOis作为经验测度(3),则当u(t)=u(t,xi)时,问题(5)和(6)的动力学和代价是一致的。对于单个控制问题,我们可以导出将引理2.2(个体控制系统)(5)和(6)的最优条件联系起来的一致性条件。考虑(5)中N个Agent的最优控制问题和(6)中Agent密度fmo:[0,T]×rn→R的最优控制问题。设FOM:[0,T]×RN×RN→Rbe为分布函数,它满足了最优性条件TO(5)的均值极限。(6)的最优性系统的乘数为λ=λ(t,x),则(5)的最优性条件的平均数解和(6)的最优性条件的解在FMO的支持下可以形式地表示为:对于所有t≥0和所有x的情况,λ(t,x,λ)=-zλfom(t,x,λ)dλ,(7a)。函数fOMis fOM的边缘:fOM(t,x,λ)=fMO(t,x)fOM(t,x,λ)。(7b)引理2.2的证明在2.3节中进行。特别地,(5)的最优性条件可在(9a-9c)中找到,其均值极限可在(10a-10b)中找到。在(11a-11c)中给出了(6)的最优性条件。推论2.3(参数化d问题)。考虑(5)中的参数化目标J=J(ui,~m(xi);p)的最优控制问题。引理2.2对于参数化的对象也成立。在证明引理2.2之前,我们讨论了与Lcalculus在(6)最优性条件的形式化计算中的使用有关的一个方面。在证明中,计算了Lagrangian的Ga teaux导数,见(1 1)。特别地,计算了fMOis中概率密度的导数,概率密度为非负,其积分为1。关于sucha函数的一致导数也在变分中保守了这些性质,例如在Wasserstein演算中。

使用道具

报纸
何人来此 在职认证  发表于 2022-4-19 18:37:39 |只看作者 |坛友微信交流群
这意味着概率密度fmosatis的可变异性η为:fmo(t,x)+η(x)≥0和zrn fmo(t,x)+η(x)\\dx=1,(8),而lcalculus中不是这样。然而,这种关系由(7)恢复。在下面的段落中假定n=1。问题(6)的拉格朗日包含了Fmo演化方程的乘数λ:Lmo Fmo,u,λ=tzzhj(u,~m(x))+αuifmodx dt+tfmo+divx fmozg(x,x,u)fMO(t,x)d x,λ.如果现在用以下标量积代替标准的标量积:fMO,λ:=zfmo(t,x)xλ(t,x)dx,我们有xλ是紧支撑的fMO(λ)的一致va,因为:zrxλ(t,x)dx=0.因此在(8)中合适的检验函数是η(x)=xλ(t,x).引理2.2的证明我们参考[20]进行详细讨论.带有hat的函数用spac e或hat变量的乘数求值,Pontryagin的最优性条件由状态动力学和拉格朗日乘子(λi)ni=1∈rnn:πxi=nnxj=1g(xi,xj,ui),(9a)πi=-dx~m(xi)\\mj(ui,~m(xi))-nnxj=1hdg(xi,xj,ui)λi+DG(xj,xi,uj)λj=1hdg(xi,xi,uj)λj=1hdg(xi,xi,uj)λj=1hdg(xi,xi,uj),(9b),其中xi(0)=xi,0和λi(t)=0,对于i=1,。..,N并且除此之外,控制由:0=quj(ui,~m(xi))+αui+nnxj=1dug(xi,xj,ui)λi确定。(9C)在这一段中,我们导出了pro-bability密度fOM=fOM(t,x,λ)的演化方程。为了求出平均极限,我们假定存在一个u:[0,T]×rn→rnusch:对于T≥0且所有i=1,u(T,xi(T))=ui(T)。...N.与动力系统(9a-9b)的多粒子极限有关的平均方程为:0=tfom+divx fomzg(x,x,u)fomdxdλ-divλfomzhdg(x,x,u)λ+DG(x,x,u)λifomdxdλ+dx~m(x)=mj(u,~m(x)),(10a),初始条件为fOM(0,x,λ)=fOM(x,λ)。(9C)的平均限值为:0=μj u,mfOM(t)+αU+ZdUG(x,X,u)λfomd x dλ,(10b)其中mfOM(t)=r~m(x)fOMdx dλ。首先平均场极限然后优化(6)的形式阶最优性条件为:0=tfmo+divx fmozg(x,x,u)fmod x,(11a)0=j(u,~m(x))+αu-tλ-z G(x,x,u)^xfmod x,(11b)0=juj(u,~m(x))+αu-zdug(x,x,u)^xfmod x,(11c)初值为fMO(0,x)=fMO(x),终止条件为λ(T,x)=0。我们可以假定存在这样一个分解:fOM(t,x,λ)=fOM(t,x)fOM(t,x,λ),其中对于条件概率密度rhom(t,x,λ)dλ=1成立。当(10b)乘以FOM时,将respec t积分到λ得到:0=reuj u,mfOMfOM(t)zfomdλ+αuzfomdλ+zdug(x,X,u)fom fomd x dλzλfomdλ,(12)因此,IF:FOM(t,x)=fMO(t,x),(13a)zλfomdλ=-∑xλ(t,x)(13b)则方程(12)与(11c)一致。使用(13)中的假设,我们得到方程(10a)关于λ:0=tzfomfomdλ+divxZfOMfOMG(x,X,u)fom fomd x dλdλ,它等价于(11a)。我们继续将(10a)乘以λ并插入(13b),然后通过pa rts积分得到:0=-T fomcuxλ-divx fomcuxλzg(x,x,u)fomd x+fOMZZhDG(x,x,u)λ+DG(x,x,u)λi fom fomfomd xdλdλdλ+fomdx~m(x)=mj(u,~m(x))。当c算出梯度w ith相对于πx:0=-fom t^xλ+^xλzg(x,x,u)fomd x+zdg(x,x,u)^x时,该方程与(11b)等价λfomd x+zdg(x,x,u)^xλfomd x-dx~m(x)^mj(u,~m(x)).这就完成了证明。3Stackelberg对策引入了一个线性二次Stackelberg对策,给出了领导者和N个跟随者的反对。

使用道具

地板
能者818 在职认证  发表于 2022-4-19 18:37:46 |只看作者 |坛友微信交流群
利用第2节的结果讨论了均值极限和最优化的互换性。讨论的Stackelber g对策b e如下:Minvtz JL(v,m(~ζ))+βv dts.t。Min~w,~ζnnxi=1tzhjf(~m(ζi);v)+γwiidts.t.ζi=nnxj=1p(ζi,ζj)(ζj-ζi)+wi,ζi(0)=ζi,0,i=1,..,N,(14)其中引导者最小化函数JL:rnl×rnf→R,该函数由其控制项v=v(t)∈rnl,且β>0的二次项正则。跟随者控制问题的结构相似:每个跟随者I∈{1,...,N}的目标是通过其二次控制wi=wi(t)∈RNF,以正则化参数γ>0来使JF:RNF×RNL→R正则化d。取m=m(~ζ)为sta tesm:RNNL→RNL的矩向量,从者的结构m是一个势博弈[26],即从者的状态和控制在目标函数中不耦合。与第二节中的最优控制问题不同的是,Stackelberg对策具有多级最优性,因此,最优性条件必须按系统顺序确定。这就产生了图1所示的三种可能性。定理3.1。考虑(14)中单个领导者和N个追随者的Stackelberg对策。用Goom表示:[0,T]×RNF×RNF×R2NF→R两者优化后的跟随者均值极限的概率密度,领导者和追随者。此外,让戈莫:[0,T]×rnf×rnf→R表示先导和GMOO优化后的均值极限的概率密度:[0,T]×Rnf→R是最优前的从动子概率密度。函数θ:[0,T]×Rnf×Rnf→R是Gomo的乘数,函数ζ:[0,T]×RNF→Ris是GMOO的乘数。如果条件:ZψGOMO(T,ζ,(do)dφ=zφgomo(t,ζ,ρ)Dψ,(15)对于t≥0且所有ζ的RnF成立,然后这三个最优系统在均值极限上是等价的,我们有以下关系:Goom(t,ζ,φ,θ)=gOMO(t,ζ,φ)gOOM(t,ζ,φ,θ),(16a)'Aζ,ρθ(t,ζ,φ)=“ρζθ(t,ζ,φ)ρθ(t,ζ,ρ)#=-Zθgoom(t,ζ,φ,θ)Dθ,(16b)对于Gomo(t,ζ,φ)=gMOO(t,∑)gOMO(t,ζ,ψ),(16c)àζ(t),∑)=-z'Agomo(t,ζ,ρ)Dψ,(16d)对于所有t≥0和所有ζ在GMOO的支持下。在3.1节证明这一陈述之前,我们给出了一个附加的内部假设,随机变量X与实现X和概率密度ρs的方差被定义为sVar(X)=e[X],e[X],wher e e[X]表示期望o f X,它被定义为E[X]=rxρ(X)dx。有了这个,条件(15)等价于要求随机变量Y的方差具有概率密度y7→gOMO(t,ζ,y)对所有(t,ζ),即,对于y的实现y,我们有:var(y)=zygomo(t,ζ,y)dy-zygomo(t,ζ,y)dy=0。例如,如果概率密度gOMO(t,ζ,y)与y中的经验测度一致集中在e[y]上,即gOMO(t,ζ,y)=δ(y-y(t,ζ))。在定理3.1的证明中,证明了最优跟随者控制是w(t,ζ)=γζ,这是事实,那么:w(t,ζ)=-γe[y]。3.1定理3.1的证明由SIX步骤组成,其中我们遵循图2的图形。为方便起见,省略了对函数的论证。我们在等式(14)中开始分析游戏的追随者级别。在正则假设下,跟随者优化问题允许使用庞特里亚金极大值原理。这样,跟随者对引导者的最优响应就可以用一个耦合的正微分方程组(ODE)来表征。

使用道具

7
何人来此 在职认证  发表于 2022-4-19 18:37:52 |只看作者 |坛友微信交流群
对于每个跟随者i=1,,它是状态动力学ζii和对偶动力学ζii的表达式。用ODE系统代替跟随者的最优控制问题,得到引导者的最优控制问题:Minvtz JL(v,m(~ζ))+βv dts。t.ζi=“ζi^ψi#=nnxj=1g(ζi,ζj,v),i=1。..,nζi(0)=ζi,0,ψi(T)=0,i=1,。..,N,(17)其中动力由G(ζi,ζj,v)=“G(ζi,ζj,v)G(ζi,ζj,v)#组成:G(ζi,ζj,v)=p(ζi,ζj)(ζj-ζi)-γψi,G(ζi,ζj,v)=-dζ~m(ζi)=m(ζi)=m(ζi);v)-dζi[P(ζi,ζj)(ζj-ζi)]ζi-dζj[P(ζj,ζi)(ζi-ζj)]ζj.离散Stackelberg2能级pr oblemODE(14)步骤2单能级pr oblemODE(1)平均场Stackelberg2能级pr oblemde gMOO(t,∑)(22)最优性体系中的πζi,θi(32)单级问题中的gOMO(t,ζ,ρ)(18)单级问题中的gmo(t,ζ,θ)(23)最优性体系中的gOMO(t,ζ,θ)(33)最优性体系中的gmo(t,ζ),θ(t,ζ,ρ)(34)最优性体系中的gmo(t,ζ),Φ(t,ζ),Φ(t,ζ),Φ(t,ζ),Φ(t,ζ),Φ(t,ζ),Φ(t,ζ),Φ(t,ζ),Φ(t,ζ),Φ(t,ζ)(26)OPTStep 1步3步6步5步4mfopt实线s表示优化顺序r(OPT)和平均极限(MF)。虚线指的是校样中的步骤。步骤2。本文从文献(17)中的最优化问题出发,证明了该问题的最优化和平均极限的互换性,并给出了必要条件。我们将引理2.1应用于m(17)及其形式平均极限,得到了概率密度Gomo=Gomo(t,ζ):Minvtz JL(v,mgOMO(t))+βv dts.t。0=tgomo+divζgomozg(ζ,ζ,v)gomodζgOMO(0,ζ)=gOMO(ζ)gOMO(T,ζ)=gOMOT(ζ).(18)因此,如果我们在gOMO的支持下:utζθ(T,ζ)=-zθgOOM(T,ζ,θ)dθ,对于乘数θto gOOM,我们得到了(17)和(18)的最优性系统在该极限上是一致的。根据gOOM(t,ζ,θ)=gOMO(t,ζ)gOOM(t,ζ,θ)给出了问题(17)的形式阶最优性系统的概率密度gOOM核。现在,形式的均值最优控制问题(18)被重新表述。我们用gmoot表示(22)中状态方程的概率密度,我们将gOMOas分解为:gOMO(t,ζ,ρ)=gOMO(t,ζ)gOMO(t,ζ,ρ),whereRgOMO(t,ζ,ρ)dφ=1。此外,我们用以下方法表示期望的va lue:p(t,ζ):=zψgomo(t,ζ,ρ)dψ。a)将此命题插入到(18)中的物镜中得到:zt jl(v,mgOMOgOMO(t))+βv dt=zt jl(v,mgOMO(t))+βv dt。(19)b)对于动力学,我们有:0=tgomo+zdivζgomogomozg(ζ,ζ,v)gomo gomozg(ζ,ζ,v)gomo gomozg(ζ,ζ,v)gomo gomodζd Gwe的定义为:0=Tgomo+divζgomo zp(ζ,ζ)(ζ-ζ)gomodζ-γzψgomod,=Tgomo+divζgomozgomo p(ζ,ζ)(ζ-ζ)-γgomo gomodζdζd。我们通过对p:0=Tgomo+divζgomo zp(ζ,ζ)(ζ-ζ)gomodζ-γp(t,ζ)的定义简化了积分,得到了表达式。

使用道具

8
kedemingshi 在职认证  发表于 2022-4-19 18:37:59 |只看作者 |坛友微信交流群
(20)c)通过积分o f(18):0=T gomop[+zψdivζgomogomoz P(ζ,ζ)(ζ,ζ)-γφgomo gomod,ζdφ+zψdivψgomogomozg(ζ,ζ,v)Gomo Gomodζdψdψ.按部分积分得率:0=T Gomop+divζGomo Zp(ζ,ζ)(ζ,ζ)Gomo GomoGomodζd,d,γzψGomo GomoGomodζd,d,d,gOMOZgOMOG(,v)Gomo Gomodζdψ,=T Gomop多+divζGomo Pzp(ζ,ζ)(ζ,ζ,v)Gomod多ζd,利用(15)中的假设,即:zψGomod多=zψGomod多=zφGomod多=0=T Gomop多+divζGomop Zp(ζ,ζ)(ζ,ζ)Gomod多zg(ζ,ζ)Gomod多zg(ζ,ζ)Gomod多zg(ζ,ζ)Gomod多zg(ζ,v)Gomod多zg(ζ,v)Gomod多zg(ζ,v)Gomod多zg(ζ,v)Gomo Gomodζdψ,=p tgomo+divζgomo zp(ζ,ζ)(ζ-ζ)gomodζγγp+gomo tp+ζpzp(ζ,ζ,v)gomo gomodζd,由于(20)的原因,我们得到了gOMOusing的支持:0=tp+ζpzp(ζ,ζ)(ζ-ζ)gomodζ-γp-zgomo-dζ~m(ζ)(~m(ζ);v)-dζhp(ζ,ζ)(ζ-ζ)iψ-dζhp(ζ,ζ)(ζ-ζ)iψgomo gomodζdψ.用r gomodζ=r gomodζ=1的产率:0=tp+πζp zp(ζ,ζ)(ζ-ζ)gomodζ-γp+dζ~m(ζ)xmjf(~m(ζ);v)+Zdζhp(ζ,ζ)(ζ-ζ)i p gomodζ+Zdζhp(ζ,ζ)i p gomodζ。(21)在步骤6中我们回到方程(21),在这里我们把它与(23)的最优性系统连接起来。步骤4.由于引理2.2,得到了(14)中跟随者最优控制问题的响应均值公式,并用密度gmoo重写了跟随者目标泛函中的矩m。这就得到了均值Stackelberg对策:Minvtz JL(v,mgMOO(t)+βv dts.t。minw,gMOOTZZhJF(~m(ζ);v)+γwigmoodζdts.t。0=tgmoo+divζgmoozhp(ζ,ζ)(ζ,ζ)+wi gmoodζgMOO(0,ζ)=gMOO(t,ζ)gOMO(t,ζ,ψ),-zψgOMO(t,ζ,ψ)dψ=πζ(t,ζ),根据引理2.2在平均极限下得到(14)和(22)的等价性。(22)中的跟随者问题的阶最优性条件由(23)给出,其中平均引导者问题为:Minvtz JL(v,mgMOO(t))+βv dts.t。0=tgmoo+divζgmooz p(ζ,ζ)(ζ-ζ)+γqiζgmoodζ0=t(t,ζ)+z(p(ζ,ζ)(ζ-ζ)+γqiζζζ+p(ζ,ζ)(ζ-ζ)+γqiζζgmoodζ-JF(~m(ζ,v)-2γ(ziζ)gMOO(0,ζ)=gMOO(ζ),(t,ζ)=0,(23)其中跟随者c控制由:w(t,ζ)=γziζ(t,ζ)=γziζ(t,ζ)给出,而gmooz gMOO(0,ζ)=gMOO(ζ,t,ζ)。第6步。A)对于gOMO(t,ζ)=gMOO(t,ζ),我们得到了(19)和(23)中的目标泛函是一致的。B)在(23)和(20)中的约束条件是等价的,条件是:p(t,ζ)=-πζ(t,ζ)。(24)c)由于(23)中的约束,梯度的形式fullls:0=tàζ(t,∑)+πζz(p(ζ,ζ)(ζ-ζ)+γπζζζ+p(ζ,∑)(ζζ)+γπζζζζgmoodζdζm(ζ)jf(~m(ζ),v)-γπζζζ,=tπζ(t,ζ)+z dζhp(ζ,ζ)(ζ-ζ)i zζ+P(ζ,ζ)(ζ-ζ)qζ+dζhp(ζ,ζ)(ζ-ζ)i zζgmoodζ~m(ζ)jf(~m(ζ,v)-γπζζ,因此:0=tπζζ(t,ζ)+z dζhp(ζ,ζ)(ζ,ζ)i zζ+P(ζ,ζ)(ζ,ζ)i zζ+dζhp(ζ,ζ)(ζ,ζ)i zζ+dζhp(ζ,ζ)(25)方程(21)和(25)是一致的,只要(24)中的consis tunness条件n成立,因此,最优性条件在条件o f Theore m下是一致的,即在条件o f Theore m下是一致的,在条件o f Theore m下是一致的,在条件o f Theore m下是一致的,在条件o f Theore m下是一致的。4求解方法我们提出了一个迭代方案,在更新前导c控制和求解一组PDEs之间交替。在前一节中,我们已经证明了在给定的条件下,优化步骤的顺序和平均极限是可以交换的。在选择1,OOM方法中,最优性系统是一个偏微分方程和一个代数条件,未知的是概率密度gOOM(t,ζ,θ),它是一个4nf+1维函数。选择2(OMO)的最优系统由概率密度为gOMO(t,ζ)和生态态为θ(t,ζ)的两个耦合偏微分方程组成。

使用道具

9
nandehutu2022 在职认证  发表于 2022-4-19 18:38:05 |只看作者 |坛友微信交流群
因此,我们提出了一个方案3的算法,即MOO方法,它由四个耦合的PDEs组成,未知数分别为gMOO(t,ζ),ρ(t,ζ),Φ(t,ζ)和Φ(t,ζ),它们只依赖于nf+1变量。由MOO方法导出的最优系统为:0=tgmoo+divζgmooz p(ζ,ζ)(ζ-ζ)+γzuζgmood,(26a)0=t+zhp(ζ,ζ)(ζ-ζ)πζ+P(ζ,ζ)(ζζ)ζζi gmoodζ+2γ(ζζ)-JF(~m(ζ),v),(26b)0=tΦ+γζζΦζζζzhp(ζ,ζ)(ζζ)ζΦi gmoodζ+zhp(ζ,ζ)(ζζ)ζζiΦdζζmjl(v,mgMOO(t))~m(ζ),(26c)0=tΦ+divζzp(ζ,ζ)zhp,zhp,zhp,zhp,zhp,zhp,zhp,zhp,zhp,zhp,zhp,zhp。ζ(ζζ)gmoodζΦ+divζzp(ζ,ζ)(ζζ)ΦdζgMOO+γdivζ(ζζΦ)-γdivζππγgMOO,(26d)0=cuvjl(v,mgMOO(t))+βv-zcuvjf(~m(ζ),v)Φdζ,(26e)gMOO(0,ζ)=gMOO(ζ),Φ(t,ζ)=0,Φ(t,ζ)=0,Φ(0,ζ)=0。(26f)注意,方程(26a)和(26d)在时间上是向前的,而(26b)和(26c)在时间上是向后的,我们解方程(26b)是对ζ而不是ζ的,同样地,我们解方程(26c)是对ζΦ而不是Φ的。因此,偏微分方程是一个非线性耦合输运方程。这些偏微分方程是积分二分方程,其源项为γ→0。观察到,在P(ζ,ζ)=0的情况下,梯度的方程ζ与其他方程无关,则我们有:0=tπζ(t,ζ)+πζ2γ(πζ(t,ζ))-JF(~m(ζ,v(t)),(27a)0=πζ(t,ζ)。(27b)这个方程还决定了我们在下面引理中指定的跟随者控制。引理4.1。考虑(14)给出的Stackelberg对策。当相互作用核为P(ζ,ζ)=0时,最优跟随者控制w的演化由方程(27)唯一确定。将滞后值域乘子定理应用于(22)的下层问题,见定理3.1的第5步。对于P0,我们给出了(26)的以下顺序解:方程(27)的解允许解gMOO的守恒定律:0=tgmoo(t,ζ)+divζγζ(t,ζ)gMOO(t,ζ),(28a)gMOO(0,ζ)=gMOO(ζ)。(28b)我们还求解了一个平衡方程:0=tζζΦ(t,ζ)+πζγζΦΦ(t,ζ)ζζΦ(t,ζ)-πmjl(v(t),mgMOO(t))ζ~m(ζ,(29a)0=πζΦ(t,0)。(29b)最后,我们通过(26d):0=tΦ(t,ζ)+γdivζ(zuζ,t,ζ)Φ(t,ζ)-γdivζcuζΦ(t,ζ)gMOO(t,ζ),(30a)0=Φ(0,ζ)。(30b)这个程序顺序地求解任意给定的领导控制V的最优系统。然后,方程(26e)根据跟随者和领导a s的目标函数以及对偶变量Φ,隐式地描述了最优领导控制。作为最后一步,我们更新了领导控制:vk+1(t)=vk(t)+σkdk(t),其中d(t)∈RnLfor t∈[0,t]由:d(t)=-πvjl(v(t),mgMOO(t))+βv(t)-z±vjf(~m(ζ,v(t))Φ(t,ζ)dζ计算,并结合基于领导目标c.f的Armijo条件的回溯线搜索步长σk>0。[7,Cor.2]。算法1:连续优化方法1:对于t∈[0,t],初始化选择初始g ue ss为leade r控制v(t)∈RNL,2:对于k=0,1,。...do3:用vkd解后向方程(27)以求取∑ζk.4:解前向方程(28)以求取gmook.5:解后向方程(29)以求取Φk.6:解前向方程(30)以求取Φk.7:计算一个像样的方向dk(t)=yenvjl(vk(t),mgMOOk(t))+βvk(t)-z±vjf(~m(ζ,vk(t))Φk(t,ζ)d.8:根据Armijo规则选择步长σk>0.9:更新控制vk+1(t)=vk(t)+σkdk(t).10:如果终止条件满足,然后,stop.11:end if12:end对于所有偏微分方程,我们都使用周期边界条件。状态空间由等元单元离散,用nζ表示在ζ的状态空间维数中单元的个数。我们用Lax-Friedrich的方法来描述细胞界面上的数值包流[24]。

使用道具

10
可人4 在职认证  发表于 2022-4-19 18:38:11 |只看作者 |坛友微信交流群
JLis中的积分采用一种有序求积规则离散化,算法的停止准则是先导控制的变化小于一个相对公差。5数值结果5.1设置本节讨论了在MATLAB中实现的数值实验结果。首先给出了所用参数的描述:跟随者的状态和控制步长的维数为nf=1,我们假定ζ[0,2]。另外,领导者控制是一维的,我们考虑时间T=1。领导者目标将领导者控制的跟踪和跟随者的矩结合为:JL(v,mgMOO(T))=(Vd+mgMOO(T)-v),期望控制为:Vd(T)=sin(2πT)。跟随者o将跟随者和领导者控制的状态耦合为:JF(~m(ζ),v)=-(~m(ζ)-v)。(31)两个目标函数均通过二次项进行正则化,实验中正则化参数分别为β、γ。我们考虑期望~m(ζ)=ζ。作为概率密度的初始条件,gMOOwe选择均匀分布:GMOO(ζ)=χ[0.5,1.5](ζ)。PDE求解的时间步长选择满足Courant-Friedrichs-Lew y条件,且CFL=0.95不变。为了求取目标函数和终止条件,将时间离散为每隔一个时间点,用插值法进行线性重构。进一步,我们为算法1选择一个最大迭代数。最大Iter=100。公差与空间离散度astol=100nζ有关。作为最初的猜测:v(t)=t,是选择的。5.2实验在图3中,解的行为是关于leadercontrol V的离散化的。我们观察到Lerror随着控制gr id的增加而单调地减少。在右边,算法1的实现与fminuncon进行了比较,fminuncon是Matlab中的一个商业trus T区域求解器,我们基于相同的PDE求解器为MATE提供梯度信息。在所有网格尺寸下,该算法的计算时间都优于fminunconin,并且计算时间随算法1的网格尺寸线性增加。所有实验都是在Nζ=500的空间离散下进行的。控制网格nt-5-4-3-2-1Leader控制vFollower控制wDualDualControl网格NTFMinunconalg。1图3:性能。在左边,领导控件和PDE解决方案的L-错误被绘制为领导控件的网格。将这些解决方案与Foungnest网格的解决方案进行了比较。在此基础上,给出了Ma tlab minuncon信任区域和用户指定梯度的CPU时间以及算法1的实现。图4中说明了leader控件。对于较小的正则化参数,由于目标精度的降低,其协同作用较大。对于任何正则化,最优前导控制v的sinodal形状是清楚可识别的。这与预期的控件VD相对应。在左边的图5中,跟随者s的控件显示为曲面图。在控制图中可以看到时间条件ζ(T,ζ)=0。右边是追随者状态的演变图。注意,在(31)中选择跟随者的目标,给他们主动离开跟随者的控制。因此,我们观察到,随着时间的推移,跟随者往往集中在ζ=2和ζ=0处。图6中给出了与引导者的优化有关的伴随方程的解。与跟随者初始条件的强关系在左边可见。在右边,我们观察到类似于跟随者状态演化的形状。这些状态是由伴随方程源项中的跟随者状态引起的。6在本文看来,本文讨论了一个可能有许多跟随者的Stackelberg对策。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-22 05:07