强公式中基于秩的平均场对策 - 外文文献专区

0关注
6粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

0%

威望: 10 级
论坛币: 10 个
通用积分: 39.6840
学术水平: 0 点
热心指数: 1 点
信用等级: 0 点
经验: 24699 点
帖子: 4115
精华: 0
在线时间: 1 小时
注册时间: 2022-2-24
最后登录: 2024-12-24

楼主

能者818

发表于 2022-5-11 02:02:31 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

英文标题：
《A rank based mean field game in the strong formulation》
---
作者：
Erhan Bayraktar and Yuchong Zhang
---
最新提交年份：
2016
---
英文摘要：
We discuss a natural game of competition and solve the corresponding mean field game with \\emph{common noise} when agents\' rewards are \\emph{rank dependent}. We use this solution to provide an approximate Nash equilibrium for the finite player game and obtain the rate of convergence.
---
中文摘要：
我们讨论了一个自然竞争博弈，并在代理人的报酬与秩相关的情况下，求解了相应的平均场博弈。我们利用这个解为有限人博弈提供了一个近似的纳什均衡，并得到了收敛速度。
---
分类信息：

一级分类：Mathematics 数学
二级分类：Probability 概率
分类描述：Theory and applications of probability and stochastic processes: e.g. central limit theorems, large deviations, stochastic differential equations, models from statistical mechanics, queuing theory
概率论与随机过程的理论与应用：例如中心极限定理，大偏差，随机微分方程，统计力学模型，排队论
--
一级分类：Mathematics 数学
二级分类：Optimization and Control 优化与控制
分类描述：Operations research, linear programming, control theory, systems theory, optimal control, game theory
运筹学，线性规划，控制论，系统论，最优控制，博弈论
--
一级分类：Quantitative Finance 数量金融学
二级分类：Mathematical Finance 数学金融学
分类描述：Mathematical and analytical methods of finance, including stochastic, probabilistic and functional analysis, algebraic, geometric and other methods
金融的数学和分析方法，包括随机、概率和泛函分析、代数、几何和其他方法
--

---
PDF下载：
-->

A_rank_based_mean_field_game_in_the_strong_formulation.pdf (296.86 KB)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：Mathematical Quantitative Differential Optimization Applications

沙发

能者818

发表于 2022-5-11 02:02:36

电子公社。Probab。第0期（2012），第0期，第1-13期。内政部：10.1214/ECP。vVOL PIDISSN:1083-589Xelectronic通信概率强公式中基于秩的平均场博弈*Erhan Bayraktar+Yuchong Zhang抽象解，为有限人博弈提供近似纳什均衡，并获得收敛速度。关键词：平均场游戏；竞争常见噪声；秩相关交互作用；非局部互动；强有力的表述。AMS MSC 2010:60小时；91A。2016年3月26日提交给ECP，最终版本于2016年10月6日接受。1引入平均场游戏（MFG），由[]和[]独立引入，当代理的动态被公共噪声调制时，为最终玩家游戏提供有用的纳什均衡。Lacker[]使用弱公式，在没有常见噪声的情况下。为了解决常见噪声的问题，我们将利用常见噪声中的机制，然后通过观察纯秩相关的奖励函数是平移不变的。本文的其余部分组织如下：在第2节中，我们介绍了N-playergame，其中玩家通过基于等级的奖励函数进行耦合。使用平均场极限的纳什均衡。利用这些结果，在第4节中，我们使用了[7]中的机制，并获得了常见噪声的相应结果*该研究部分由国家科学基金会DMS-1613170资助。+美国密歇根大学。电子邮件：erhan@umich.edu哥伦比亚大学，美利坚合众国。电子邮件：yz2915@columbia.eduarXiv：1603.06312v3[math.PR]2016A年10月15日基于排名的平均场游戏2 N人游戏我们认为每个玩家都控制自己的状态变量，并根据自己的排名进行奖励。

藤椅

mingdashike22

发表于 2022-5-11 02:02:40

我们将表示byXithei第个玩家的状态变量，并假设它满足以下随机微分方程（SDE）dXi，t=ai，tdt+σdBi，t+σdWt，Xi，0=0，aii（Bi）i=1，。。。，在某些过滤概率空间上定义的布朗运动(Ohm, F、 {Ft}t∈[0，T]，P），分别代表特殊噪声和普通噪声。游戏在时间t>0时结束，当每个玩家收到一个基于等级的奖励，减去努力的运行成本，我们将假设该成本为二次方，或者某个常数c>0。为了精确定义基于等级的奖励，让“uN：=NNXi=1δXi，TN”uN(-∞, Xi，T]iR×[0，1]3（x，r）7→ R（x，R）∈ RuRRu（x）=R（x，u(-∞, x] ）=R（x，Fu（x）），其中Fu表示u的累积分布函数。我收到的奖励是由RuN（Xi，T）=R（Xi，T，\'uN）给出的(-∞, Xi，T]）=R（Xi，T，F？uN（Xi，T））。R（x，R）x绩效补偿。每个玩家的目标是观察所有玩家的进度，并选择自己的努力水平以最大化预期回报，同时预测其他玩家的策略。作为时间和状态变量的函数，参与者的均衡预期收益满足一个耦合的非线性偏微分方程组，在一个大种群博弈中，任何个体对整个种群的影响都是显著的→ ∞N人游戏，无论有无普通噪音。3无共同噪声时的平均场近似值σ=0一致性条件）。对于任何波兰空间X，用P（X）表示X上概率测度的空间，P（X）：={u∈ P（X）：RX|X|du（X）<∞}.u ∈ P（R）考虑单个玩家的优化问题：v（t，x）：=supaEt，x“Ru（XT）-ZTtcasds#（3.1）ECP 0（2012），论文0。第2页/13页ECP。ejpecp。orgA基于等级的平均场博弈，其中dxs=asds+σdBs，（3.2）Bis是布朗运动，范围是一组逐步可测量的过程，使ERT | as | ds<∞.

板凳

kedemingshi

发表于 2022-5-11 02:02:44

相关的动态规划方程是VT+supaavx+σvxx- ca= 0v（T，x）=Ru（x）候选优化器isa*=而汉密尔顿-雅可比-贝尔曼（HJB）方程可以写成vt+σvxx+（vx）4c=0。u（t，x）：=e（2cσ）-1v（t，x），givingut+σuxx=0。加上边界条件u（T，x）=e（2cσ）-1Ru（x），我们可以很容易地写出解：u（t，x）=E经验2cσRu（x+σ√T- （tZ）（3.3）其中Z是标准正态随机变量。让我们进一步把u写成一个积分：u（t，x）=Z∞-∞经验2cσRu（x+σ√T- （tz）√2πexp-Zdz=Z∞-∞经验2cσRu（y）p2πσ（T）- t）经验-（y）- x） 2σ（T）- （t）dy.利用支配收敛定理，我们可以在积分符号下进行微分，并且getux（t，x）=Z∞-∞经验2cσRu（y）p2πσ（T）- t）经验-（y）- x） 2σ（T）- （t）（y）- x） σ（T）- t） dy=Z∞-∞经验2cσRu（x+σ√T- （tz）√2πexp-Zzσ√T- tdz=E经验2cσRu（x+σ√T- （tZ）Zσ√T- T. （3.4）同样，我们得到了uxx=E经验2cσRu（x+σ√T- （tZ）Z- 1σ（T）- （t）. （3.5）（3.3）（3.5）以下是估计数。请注意，所有边界都与μ无关。引理3.1。函数u和v满足0<K-1.≤ u（t，x）≤ K- kRk∞≤ v（t，x）≤ kRk∞,0≤ ux（t，x）≤Kσrπ√T- t、 0≤ vx（t，x）≤ 2cσKrπ√T- t、 |uxx（t，x）|≤2KσT- t、 |vxx（t，x）|≤4cK（1+Kπ）-1） T- t、其中K:=exp（（2cσ）-1KK∞).ECP 0（2012），论文0。第3/13页ECP。ejpecp。orgA基于等级的平均场*=VX2CX遵循最优控制状态过程，用X表示*, 有一个强解[0，T）。

报纸

可人4

发表于 2022-5-11 02:02:47

注意这一点≤ZTta*（s，X）*s） ds≤ZTtσKp2/π√T- sds=2σKr2（T- t） π<∞.uX*u=x+Ruta*（s，X）*s） ds+σ（Bu）- 英国电信公司→ t问题的功能（3.1）（3.2），以及*是最优的马尔可夫反馈控制。最后，再次使用支配收敛定理，我们可以证明对于t<t，limx→±∞ux（t，x）=0。A.*我同意许多现实生活中的观察，当一名球员领先非常大时，这是很容易的，而不是试图追赶。3.1纳什均衡的存在性∈ P（R）（3.1）（3.2）v（t，x；u）a*（t，x）=（2c）-1vx（t，x；u）通用播放器的过程xu满足SDEdXt=vx（t，Xt；u）2cdt+σdBt，x=0。(3.6)Φ : u 7→ L（XuT）L（·）有时指的是这样一个固定点，作为一个平衡度量。定理3.2。映射Φ有一个固定点。证据u ∈ P（R），我们有|XuT|≤ E2σKr2Tπ+σ| BT |！=: C.Φ（u）=L（XuT）P（R）拓扑的弱收敛性。回想一下p（R）={u∈ P（R）：RR|x|du（x）<∞}. 为P（R）配备由1-Wasserstein度量所诱导的拓扑：W（u，u）：=infZR | x-y | dπ（x，y）：π∈ P（R）带边缘u和u= 啜饮ZRψdu-ZRψdu：ψ∈ 边缘（R）.Lip（R）R（P（R），W）空间（见[9，定理6.18]）。我们将使用P（R）的一个子集，具体如下：=u ∈ P（R）：ZR | x | du（x）≤ C.ECP 0（2012），论文0。第4/13页ECP。ejpecp。基于orgA等级的平均场gameEW{un} E上的EWEWEΦEΦ连续。在证明的其余部分中，常数C可能会随着行的变化而变化。让{uk} Esuch thatW（微克，微克）→ 问→ ∞. 我们希望展示（Φ（uk），Φ（u））→0.注意w（Φ（uk），Φ（u））≤ E[| XukT- XuT |]≤2cZTE[|vx（t，Xukt；uk）-vx（t，Xut；u）|]dt。根据引理3.1，我们知道|vx（t，Xukt；uk）-vx（t，Xut；u）|≤C√T-T

地板

大多数88

发表于 2022-5-11 02:02:50

7楼

能者818

发表于 2022-5-11 02:02:53

对任何人来说∈ [0，t]，E[|Xukr- Xur |]≤2cZrE[| vx（s，Xuks；uk）-vx（s，Xus；u）|]ds≤ZrE计算机断层扫描- s | Xuks- Xus |+2c | vx（s，Xus；uk）-vx（s，Xus；u）|ds。通过（3.7）和有界收敛定理，我们得到了中兴[|vx（s，Xus；uk）-vx（s，Xus；u）|]ds→ 对于足够大的k，我们有[Xukr]- Xur |]≤计算机断层扫描- tZrE[|Xuks- Xus|]ds+E-CtT-t、根据Gronwall不等式，E[| Xukt- Xut |]≤ E-CtT-t+CT- tZtE-CtT-teC（t）-s） T-tds=.这就完成了（3.8）的证明，从而完成了Φ的连续性。根据Schauder的不动点定理，集合E.3.2纳什均衡的唯一性中存在Φ的不动点。C P（R）第一状态单调性假设，符合[8]的精神。假设3.3。对于任何u，u∈ C、我们有Zr（Ru）- Ru）（x）d（u）-u）（x）≤ 0.备注3.4。TakeCto是绝对连续的所有度量inP（R）的集合函数R是Lipschitz连续的且h（x，R，R）：=R（x，R）-R（x，R）R- r、 x∈ R、（R，R）∈ [0,1]\\{r=r}hx，hr，hrRr 7→ R（x，R）R7→ Rx（x，r）hx，hr，hr≥ 0ECP 0（2012），论文0。第6/13页ECP。ejpecp。orgA基于排名的平均场游戏u，u∈ CRuRu使用部件集成实现绝对连续功能，我们得到了Zr（Ru- Ru）（x）d（u）-u）（x）=ZR（Fu- Fu（x）h（x，Fu（x），Fu（x））d（Fu- Fu）（x）=-锆（Fu）- Fu）（x）d[（Fu）- Fu）（x）h（x，Fu（x），Fu（x））=-锆（Fu）- Fu）（x）dh（x，Fu（x），Fu（x））-ZR（Ru）- Ru）（x）d（u）-u）（x）重新安排条款并使用hx、hr、hr≥ 0，我们得到Zr（Ru- Ru）（x）d（u）-u）（x）=-锆（Fu）- Fu）（x）h（x，Fu（x），Fu（x））·（dx，dFu（x），dFu（x））≤ 0.xuFu（x）：=（Fu（x+）+Fu（x-))在R（x，R）=R的情况下，假设3.3满足C=P（R）（见[5，定理B]）。提案3.5。在假设3.3下，Φ在C证明中最多有一个固定点。ΦCv（t，x）：=v（t，x；u）v（t，x）：=v（t，x；u）xuxut∈ （0，T）利用它的引理和由v和v满足的偏微分方程，很容易证明E[v（T，XuT）]=v（0，0）+EZt4c（vx）（s，Xus）ds, （3.9）andE[v（t，Xut）]=v（0，0）+EZt4c2vxvx- （vx）（s，Xus）ds.

8楼

大多数88

发表于 2022-5-11 02:02:56

（3.10）写作v:=v- v、我们从（3.9）中减去（3.10）得到[v（t，Xut）]=v（0,0）+EZt4c[(v） x（s，xus）]ds.让t→ 利用v的连续性和vat的终端时间，我们得到e[（Ru）- Ru）（XuT）]=E[v（T，XuT）]=v（0,0）+E“ZT4c[(v） x（s，xus）]ds#。（3.11）现在，交换u和u的角色。我们还有[（Ru- Ru）（XuT）]=-E[v（T，XuT）]=-v（0,0）+E“ZT4c[(v） x（s，xus）]ds#。（3.12）加入（3.11）和（3.12），使用该u=L（XuT），u=L（XuT），我们得到0≤4cE“ZT[(v） x（s，xus）][(v） x（s，xus）]ds#=E[（Ru- Ru）（XuT）]+E[（Ru- Ru（XuT）]=ZR（Ru- Ru）（x）d（u）-u）（x）≤ 0，ECP 0（2012），论文0。第7/13页ECP。ejpecp。orgA基于等级的平均场博弈，其中最后一个不等式来自假设3.3。这意味着vx（s，Xus）=vx（s，Xus）dP×dt-a.e.（3.6）XuT=XuTu=u。3.3 N人博弈的近似纳什均衡MFG解决方案允许我们使用分散策略构造一个近似简单的问题，因为平均场相互作用不会进入状态回报的动态，而状态回报通常不是Lipschitz连续的。定义3.6。a=（a，…，aN）如果（i）EhRT|ai，t|dti<∞ 无论如何，我∈ {1，…，N}；及(ii)i∈ {1，…，N}βEhRT |βt | dti<∞, 我们有RuN，a（Xaii，T）-ZTcai，tdt#+ ≥ E“R”uN，aiβ（Xβi，T）-ZTcβtdt#，Xβi，T=RTβtdt+σBi，Taiβ=（a，…，ai）-1，β，ai+1，a）uN，a=NPNj=1δXajj，T.RR（x，r）=a（x）rp+B（x）p∈ (0, ∞)A.∈ L∞（R）。假设3.7。L>0α∈ （0，1）| R（x，R）-R（x，R）|≤ L | r- r |α对于任何r，r∈ [0,1]和x∈ R.定理3.8。让假设3.7保持不变。对于Φ的任意固定点u，\'ai，t:=（2c）-1vx（t，X’aii，t；u），i=1，N形成O（N）-N人博弈的α/2）-纳什均衡→ ∞.证据设u为Φ的一个固定点，并将ai定义为定理陈述中的定义。

9楼

mingdashike22

发表于 2022-5-11 02:03:00

为了保持符号简单，我们省略了任何状态过程的上标，如果它是由最优马尔可夫反馈策略（2c）控制的-1vx（t，x；u）。LetV:=v（0，0；u）=E“Ru（XT）-ZT4cvx（s，Xs；u）ds#是极限游戏的值，其中X满足（3.6），jni:=E“R”uN（Xi，T）-如果每个人都使用候选近似纳什均衡（\'a，\'aN），则ZTc\'ai，sds#是anN游戏者博弈中游戏者的净收益。此处|uN=NPNi=1δXi，T。自我们的国家处理SECP 0（2012），论文0。第8页/13ecp。ejpecp。orgA rank-based mean-field gamepayoff），每个Xi都只是X的一个独立、相同的副本。HenceV=E“Ru（Xi，T）-ZTc\'ai，sds#。让我们首先证明JNiand V是接近的。我们有JNI- V=E[R′uN（Xi，T）-Ru（Xi，T）]。从R的α-H"older连续性可以得出|JNi- V|≤ LE[|F|uN（Xi，T）-Fu（Xi，T）|α]≤ LE[k^FNu- Fukα∞],福恩在哪里∈ N、 ^Fnu表示NI的经验累积分布函数。i、 d.具有累积分布函数fu的随机变量。作者：德沃雷茨基·基弗·沃尔福威茨k^FNu- Fuk∞> ≤ 2e-2N.因此| JNi- V|≤ LE[k^FNu- Fukα∞] = LZ∞Pk^FNu- Fukα∞> Zdz≤ LZ∞2e-2Nz2/αdz=2L（4N）α/2Z∞E-y2/αdy=O（N-α/2）as N→ ∞.i（\'a，\'aN）控制β。用Xβi表示她的受控状态过程，以及所有其他xjj 6=i′νN:=N（δXβi，T+Pj6=iδXj，T）终端状态的经验测量，以及jn，βi:=E“R”νN（Xβi，T）-ZTcβsds#是玩家i的相应净收益。

10楼

可人4

发表于 2022-5-11 02:03:03

我们有JN，βi- V=E“R′νN（Xβi，T）-ZTcβ-sds#- E“Ru（Xi，T）-ZTc\'ai，sds#=EhR\'νN（Xβi，T）-Ru（Xβi，T）i+E“Ru（Xβi，T）-ZTcβ-sds#- E“Ru（Xi，T）-中兴国际，sds#≤ EhR′νN（Xβi，T）-Ru（Xβi，T）i与我们估计| JNi的方式相似- V |，我们有jn，βi- 五、≤ LE[|F′νN（Xβi，T）-Fu（Xβi，T）|α]=LEN1.-Fu（Xβi，T）+N- 1N^FN-1u（Xβi，T）-Fu（Xβi，T）α≤ 乐N+N- 1Nk^FN-1u- Fuk∞α≤ LN+N- 1NEhk^FN-1u- Fuk∞我α=O（N）-α/2）as N→ ∞,ECP 0（2012），论文0。第9/13页ECP。ejpecp。基于orgA等级的平均场GameActainJn，βi- JNi≤ JN，βi- V+| V- JNi |=O（N）-α/2）as N→ ∞.这表明（\'a，\'aN）是O（N）-α/2）-近似纳什均衡。备注3.9。如果没有假设3.7，我们仍然可以使用N人博弈的连续性和有界性要求。然而，收敛速度不再有效。4平均场近似当本节中存在常见噪声时，我们假设σ>0，r（x，r）与x无关；后者意味着→ ∞随机测量，而不是确定性测量。因此，MFG问题现在是这样的：（i）修正一个随机度量u，即代表性玩家面临的人口终端分布问题：V（u）=supaE“Ru（XT）-ZTasds#，（4.1），其中dxs=asds+σdBs+σdWs，X=0。（4.2）用Xu表示最佳控制状态过程。（ii）找到映射的固定点ψ：u7→ L（XuT | W）。u ∈ P（R）u（·+q）uq∈ RRxRu（x+q）=R（Fu（x+q））=R（Fu（·+q）（x））=Ru（·+q）（x）中给出的相互作用。在没有平移不变性的一般情况下，只能在弱公式中获得结果，见[3]。（3.1）（3.2）（4.1）（4.2）以及它们各自的定点问题，如MFG和MFGcn。直接应用[7，定理2.5]可以得到以下存在性结果。提议4.1。设u为制造商的（确定性）平衡测量值。然后u：=- σWT）是MFGcn的（随机）平衡度量。

[量化金融] 强公式中基于秩的平均场对策 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

浏览过的帖子

浏览过的版块

本版微信群

[量化金融] 强公式中基于秩的平均场对策 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群