顺序半匿名非原子博弈与它们的大博弈之间的联系 - 第2页 - 外文文献专区

11楼

nandehutu2022

发表于 2022-5-9 08:20:18

因此，t+1期间的预作用环境遵循σt+1=τt是合理的⊙ ~gt（·，·，τt），带[τt⊙ gt（·，·，τt）]（S′）=ZS×Xτt（ds×dx）·gt（S，X，τt | S′），S′∈ B（S）。（6）虽然（6）是从（2）中直观推断出来的，但我们警告说，从逻辑上讲，这是NG定义的一部分，而不是从后者衍生出来的东西。从σ到σt+1通过随机行动计划χ的转变最好由操作员来表达。对于任何内核χ∈ K（S，X），定义空间P（S）上的算子Tt（χ），使Tt（χ）o σ = (σ χ) ⊙ ~gt（·，·，σ） χ) = σ ⊙ χ ⊙ ~gt（·，·，σ） χ), σ ∈ P（S）。（7）基本上，状态分布σ和随机状态相关的行动计划χ首先融合形成联合状态电子行动分布σ 所有球员都能感受到。然后，后者的随机统计转换由内核＠gt（·，·，σt）引导 χ). 随后，在“平均”行动的影响后，下一阶段的状态分布将变为σ⊙ χ ⊙ ~gt（·，·，σ） χ). 一个时期之前的环境变迁现在可以用σt+1=Tt（χt）来表示o σt=σt⊙ χt⊙ ~gt（·，·，σt） χt）。（8）对于t和t′与t≤ t′，以及行动计划的序列χ[tt′]=（χt′，t′=t，…，t′），我们可以迭代定义t[tt′]（χ[tt′），从而使t[tt′]（χ[tt′）o σt=Tt′（χt′）o （T[T，T′）-1] （χ[t，t′）-1]) o σt），σt∈ P（S）。（9）左手边是球员在t′+1阶段的状态分布，当他们开始t阶段时，分布σ，并在中间采用动作序列χ[tt′。注意t[tt]（χ[tt]）只不过是tt（χt）。默认情况下，我们让T[T，T-1] 代表P（S）上的身份操作员。环境轨迹σ[1，\'t+1]满足σ[1，\'t+1]=（t[1，t-1] （χ[1，t]-1]) o σ| t=1，2。。。，\'t，\'t+1）。

12楼

mingdashike22

发表于 2022-5-9 08:20:22

（10）它是由定义决定的。4 n-player G将相同的t、S、X、（~ft|t=1、2、~t）和（~gt|t=1、2、~t）保留在背景中。对一些人来说∈ N\\{1}和初始多状态es=（s，s，…，s1n）∈ Sn，我们可以定义ann玩家游戏Γn，其中每个s1m∈ S是玩家m的初始状态。游戏的支付和状态演变仍然分别由)ft和)gt描述。然而，由于外部环境因玩家而异，且其演变是随机的，因此细节更加混乱。暂时∈ A、其中A又是一个可分度量空间，我们使用δato表示δA（{A}）=1的单态dirac测度。对于a=（a，…，an）∈ 安南∈ N、我们使用εaforPnm=1δam/N，由向量a生成的经验分布。我们还使用Pn（a）来表示εaforpn型概率测度的空间∈ An，即n个样本产生的经验分布空间。现在回到游戏Γn（s），假设在周期t=1，2。。。，\'t，每个玩家m=1，2。。。，n处于状态stm，并在xtm中执行操作。然后，玩家1所经历的动作环境将是εst，-1xt，-1=ε（（st2，xt2），。。。，（stn，xtn））。因此，该玩家将获得支付（st1，xt1，εst，-1xt，-1）在这段时间内，他的周期-（t+1）stat est+1,1将从分布gt（st1，xt1，εst，-1xt，-1|·).假设χ[1\'t]=（χt|t=1，\'t）∈ （K（S，X））tagain描述了alln玩家采用的策略。与NG不同，这一次χ[1\'t]将有助于生成随机的而非确定性环境轨迹。

13楼

mingdashike22

发表于 2022-5-9 08:20:27

为了描述这个复杂过程中的每个单周期转变，我们依赖于核χnt⊙ ~gnt∈ K（Sn，Sn）由（χnt）定义⊙ gnt（s|s′）=ZXnχnt（s|dx）·gnt（s，x|s′），s∈ Sn，S′∈ B（Sn），（11）其中χnti是满足χnt（s|X′×·X′n）=∏nm=1χt（sm | X′m）的K（Sn，Xn）的一个成员，s∈ Sn，X′。。。，X\'n∈ B（X），（12）和gnt是满足gnt（s，X|s′×··s′n）=∏nl=1gt（sl，xl，εs）的K（Sn×Xn，Sn）的成员-九、-l | S′l），（s，x）∈ Sn×Xn，S′。。。，S\'n∈ B（S）。（13）在组合中，（11）可以表示为（χnt）⊙ ~gnt（s|s′×·s′n）=ZXn∏nm=1χt（sm | dxm）·nl=1gt（sl，xl，εs）-九、-l | S′l）。（14）以上反映出，每个玩家m从分布χt（sm |·）中采样其动作Xm；一旦所有玩家的动作x=（x，…，xn）都被确定，每个玩家l将面对他唯一的动作环境εs-九、-L因此，该玩家的周期-（t+1）状态将从分布gt（sl，xl，εs）中取样-九、-l |·）。当n个游戏者以分布为πnt的随机多态开始周期t时∈P（Sn），它们根据随机规则χt起作用∈ K（S，X）在此期间，它们将生成联合分布unt∈ P（Sn×Xn）周期t多态和-作用满足unt=πnt χnt。（15）根据（3）和（12），上述意思是，对于任何S′∈ B（Sn）a和X′。。。，X\'n∈ B（X），unt（S′×X′×·X′n）=ZS′πnt（ds）·χnt（S | X′×·X′n）=ZS′πnt（ds）·nm=1χt（sm | X′m）。（16）显然，（15）对应于NG情况下的（5）。通过（11），周期-（t+1）多状态分布unt⊙ ~gnt∈ P（Sn）将紧随其后（unt⊙ gnt（S′）=ZSn×Xnunt（ds×dx）·gnt（S，x | S′），S′∈ B（Sn）。（17）结合（15）和（17），我们可以看到多个态之间的单周期跃迁是πn，t+1=（πnt） χnt）⊙ ~gnt=πnt⊙ χnt⊙ ~gnt。（18）注（18）是n人游戏对NG（8）的回答。与（9）相似，用于t≤ t′，周期t′多态st′的分布πnt′由πnt′=πnt给出⊙ πt′-1t′=t（χnt′）⊙ ~gnt′）。

14楼

mingdashike22

发表于 2022-5-9 08:20:30

（19）当初始多状态从分布πn1中随机抽取时，n人游戏的多状态分布的整个轨迹πn，[1，\'t+1]=（πnt | t=1，2，…，\'t，\'t+1）可以写成πn，[1，\'t+1]=（πn1）⊙ πt-1t′=1（χnt′）⊙ gnt′）| t=1，2。。，\'t，\'t+1）。（20）当所有玩家的状态都从某个数据中抽样时∈ P（S），我们仍然有（20）作为多状态分布的轨迹，但是πn1=σn。当识别πn1=δS时，P（Sn）中的Diracmeasure将赋予S（20）全部权重，这将有助于描述n人博弈Γn（S）的多状态分布的演化，就像（10）对Γ（σ）所做的那样。5聚合环境的收敛性7在讨论累积收益和均衡等概念之前，我们已经可以引入有限博弈和均衡之间有趣的联系。它是根据n人博弈中的多状态分布序列πn，[t，\'t+1]=（πnt′|t′=t，t+1，\'t+1）与它们的NG对应状态分布序列σ[t，\'t+1]=（σt′|t′=t，t+1，\'t+1）之间的渐近关系。其信息是，当从t期的相似环境开始，并从该期开始采用相同的行动计划时，大型有限游戏所经历的随机环境路径不会偏离其确定性环境轨迹太多。我们避免使用“收敛”这个词，因为πnt′对于不同的n′驻留在不同的空间中。首先，我们提出了渐近相似性的概念，以便精确描述概率测度序列中的成员越来越类似于给定测度的乘积的方式。对于可分度量空间a，空间P（a）被Prohorov度量ρa度量，从而在其上产生弱拓扑。固定时间∈ N、来自Anto Pn（A）的映射ε（·） P（A）是连续的。

15楼

mingdashike22

发表于 2022-5-9 08:20:34

因此，对于任何p∈ P（A）和>0，集合{A∈ An |ρA（εA，p）<}是An的一个开放子集，因此是B（An）的一个成员。可分度量空间a的定义1，假设p∈ P（A）和每n∈ N、 qn∈ P（An）。我们说，序列qn符号上类似于由p的n阶r积p×················································································································································<pad><pad><pad><pad><pad><pad><pad><pad><pad>∈ An |ρA（εA，p）<}>1- .定义1表示，当从qn中取样的随机m向量a=（a，…，an）的经验分布εao非常可能随着n的接近而接近p时，序列qnw将渐近类似于产品度量的序列pn+∞. 这种相似性概念与Prohor-ov定理（Partha sarathy[26]，定理II.7.1）是一致的，其弱版本在附录A中以引理2的形式出现。因此，任何序列（p′）都不会渐近地重新组合序列pnif，且仅当p′=p。与相似性概念相关的一些结果已放在附录A中。引理3来自基弗的德沃雷茨基，以及Wolfolwitz的[10]不等式，并使引理2中的收敛性在所选概率p中一致。根据引理4，任意n长向量a中一个分量的篡改∈ An不会对εa有太大的改变。因此引理5自然会指出，qnto pn的相似性会导致theAn的相似性-1-边缘qn | An-1至pn-1.引理6表示，上述结果也将导致p′×qn的渐近平衡-对于任何p′，1到Pn。因此，总的来说，A-边缘词qn | A和p之间的关系不可能有实质性的区别。

16楼

mingdashike22

发表于 2022-5-9 08:20:38

最后，引理7表明，在A×B到A的投影下，渐近相似性是保持不变的。下面的一步结果表明，关于行动前环境的渐近相似性可以转化为关于行动中环境的渐近相似性；同样，在游戏中进行一步之后，相同的外观也会保留下来。命题1让状态分布σ∈ P（S），随机S州独立行动计划χ∈K（S，X）和状态转移核g∈ G（S，X），后者以（S，X）-独立速率在联合状态作用di分布τ中享受G（S，X，τ）的连续性。此外，多状态分布πn∈ 每n的P（Sn）∈ N.进一步假设序列π在鼻症状上类似于序列σN。然后，（i）序列πN χn与序列（σ）渐近相似 χ） n和（ii）序列πn⊙χn⊙Gn将渐近类似于序列（σ⊙χ⊙g（·，·，σ）χ）事实上，（ii）在轻度污染下仍然有效。也就是说，对于任何（s，x）∈ S×X，（iii）序列（δsx×（πn）-1. χn-1)) ⊙ Gn将渐近重新分配序列（σ⊙ χ ⊙ g（·，·，σ） χ））nat的速率与所选的（s，x）无关。提案1是我们两项最具技术性的成果之一。它的证明引用了Pro horov关于经验分布收敛性的定理（Parthasarathy[26]，定理II.7.1），以及（II）和（iii）部分的Dvoretzky、Kiefer和Wolfolwitz[10]不等式，这些不等式提供了这种收敛的一致性。

17楼

kedemingshi

发表于 2022-5-9 08:20:42

在本文中，第（i）部分强调了行动前环境收敛到行动环境中同一时期收敛的可能性，见（5）和（15）；第（二）部分进一步指出，在下一阶段的行动前环境中，趋同也将如此，见（8）和（18）；此外，当我们从一个玩家的角度来看问题时，第（三）部分也会很有用。。为了利用命题1，我们现在假设状态转换相对于实际环境的等连续性。假设1在（s，x）-独立的情况下，每个变换核gt（s，x，τ）在τ上是连续的。也就是说，对于任何i-n-action环境τ∈ P（S×X）和>0，存在δ>0，对于任何τ′∈ 满足ρS×X（τ，τ′）<δ和任意（S，X）的P（S×X）∈ S×X，ρS（~gt（S，X，τ），~gt（S，X，τ′）<。我们可以得出本节的ma in结果。它指出，当一个天然气及其最终对应物在同一行动计划下演化时，大型天然气的环境路径虽然是随机的，但将类似于天然气的确定性路径。定理1：让一个政策文件χ[t\'-t]∈ （K（S，X））t-t+1周期t，t+1。。。，“不可能。当st=（st1，…，stn）具有与σnt渐近相似的分布πnt时，序列（πnt⊙πt′-1t′=t（χnt′）⊙~gnt′）|t′=t，t+1。。。，\'t，\'t+1）将渐近地类似于e（（t[t，t′）-1] （χ[t，t′）-1])oσt）n|t′=t，t+1。。。，“t，”“t+1”）也是如此。也就是说，对于任何>0和任何足够大的n，[πnt⊙ πt′-1t′=t（χnt′）⊙ ~gnt′）（~Ant′（））>1- , t′=t，t+1。。。，\'t+1，其中对于每一个t′，多状态的集合\'Ant\'（）∈ B（Sn）是这样的，ρS（εst′，T[T，T′）-1] （χ[t，t′）-1]) o σt）<，圣∈~Ant′（）。假设一个NG开始的时间段t具有预作用环境σ，而一系列有限的游戏开始的时间段具有几乎从σt采样的预作用环境。

18楼

mingdashike22

发表于 2022-5-9 08:20:45

让这两种游戏的演变都由玩家根据相同的政策文件χ[t\'t]进行引导。然后，当参与有限博弈的玩家数量n不确定地增长时，定理1预测有限博弈的“周期-t”环境εst\'与NG的确定性周期-t\'环境t[t，t\'之间的距离越来越小-1] （χ[t，t′）-1]) oσt.对于某些固定σ∈ P（S），我们可以把t=1和πn1=σn插入定理1。然后，我们将获得大n\'s的σn[1，\'t+1]=（σnt|t=1,2，\'t，\'t，\'t+1）和πn[1，\'t+1]=（πnt | t=1,2，\'t，\'t+1）之间的接近度，其中每个σt=t[1,t]-1] （χ[1，t]-1]) o σ和每个πnt=σn⊙ πt-1t′=1（χnt′）⊙ ~gnt′）。鉴于（10）和（20），这意味着当大型ga mes从anNG的起始分布σ中采样其初始状态时，前一个游戏的状态分布轨迹将与后一个游戏的状态分布轨迹保持一致。到目前为止，我们对离散空间S和X的限制主要是因为需要处理形式p的非乘积联合概率 κ; 见（3）。在Yang[34]中，随机状态转换和随机行动计划通过独立生成的冲击进行建模，只需要与产品形式概率p×q有关的结果，其中q是一个普通概率，而不是条件概率。因此，Ethier和Kurtz[11]的建议III.4.4和III.4.6等已知属性可以得到很好的利用。结果可以基于完全状态空间和冲击空间。

19楼

可人4

发表于 2022-5-9 08:20:48

相比之下，如果我们在这里考虑更多的一般空间，我们将面临目前无法克服的挑战，即在i=1，2，…，的情况下，通过度量p和π之间的接近度。。。，当n本身趋于一致时，n在pn和qni=1pi之间的b上。6 NG和有限博弈均衡展示了本文的主要结果，即NG均衡虽然不了解过去的历史，也不了解其他玩家的状态，但在大型博弈中被玩家采用时，会产生最小的后悔。首先，我们介绍这两种游戏中使用的均衡概念。6.1均衡在定义NGΓ（σ）均衡时，我们将候选人政策文件受制于单个参与者的一次性偏差，默认情况下，该参与者的影响极小。注：偏差不会改变与候选文件对应的环境轨迹。基于这种理解，我们将vt（st，ξ[t\'t]，σt，χ[t\'t]）定义为一个玩家从t到t期间（当他从状态st开始时）可以获得的总预期收益∈ 并通过行动计划ξ[t\'t]=（ξt，…，ξ\'t）∈（K（S，X））t-t+1突破，而其他球员则形成了初始的行动前环境σt∈ 并采用政策文件χ[t\'t]=（χt，…，χt）∈ （K（S，X））t-t+1贯穿始终。作为最终条件，我们当然有v\'t+1（s\'t+1，σ\'t+1）=0。（21）对于t=\'t，\'t- 1.1，我们有递归关系vt（st，ξ[t\'t]，σt，χ[t\'t]）=RXξt（st|dxt）·[ft（st，xt，σt χt）+RS~gt（st，xt，σt） χt|dst+1）·vt+1（st+1，ξ[t+1，\'t]，Tt（χt）o σt，χ[t+1，`t]）。（22）这是因为玩家的行为是由ξt以随机方式引导的，它的报酬由ft决定，它的状态演变由gt决定，它的未来报酬由vt+1提供；此外，在经历了普遍采用的行动计划χt之后，period-（t+1）行动前环境σt+1将是Tt（χt）o σtas如（8）所示。

20楼

nandehutu2022

发表于 2022-5-9 08:20:51

ξ的选择影响当前玩家的周期战术xt、他的周期-（t+1）状态st+1以及他未来的状态动作轨迹。然而，这个微不足道的参与者的变化不会改变行动环境σt中的周期t χtas在（5）中列出，或在未来的任何环境中。这就是为什么NGs比其固定玩家更容易处理的主要原因。现在，我们认为政策χ[1\'t]∈ （K（S，X））当每t=1，2。。。，\'t和ξt∈ K（S，X），vt（st，χ[t\'t]，σt，χ[t\'t]）≥ vt（st，（ξt，χ[t+1，\'t]），σt，χ[t\'t]），圣∈ S、（23）式中σt=t[1，t-1] （χ[1，t]-1]) o σ. （24）也就是说，政策χ[1\'t]将被视为一种平衡，因为没有任何参与者可以通过单方面偏离任何替代计划而获得更好的效果∈ K（S，X）在任何一个周期t内。σtin（24）的定义强调了几乎所有参与者采用行动计划χ[1\'t]后确定性环境轨迹的演变。6.2-n-p层博弈中的均衡对于n人博弈，让vnt（st1，ξ[t\'t]，εst，-1，χ[t\'t]）是玩家1从t到t期间（当他从stat e st1开始时）可以获得的总预期报酬∈ S并通过行动计划ξ[t\'-t]∈ （K（S，X））t-当其他参与者形成初始经验状态分布εst时，-1=ε（st2，…，stn）∈ Pn-1（S）和dopt行动计划χ[t\'t]∈ （K（S，X））t-t+1贯穿始终。作为初始条件，我们有vn，\'t+1（s\'t+1,1，εs\'t+1，-1) = 0. （25）对于t=\'t，\'t- 1.1，我们有递归关系vnt（st1，ξ[t\'t]，εst，-1，χ[t\'t]）=RXξt（st1 | dxt1）·RXn-1χn-1t（圣，-1 | dxt，-1） ××[Sft（st1，xt1，εst，-1xt，-1） +RSn | gnt（st，xt | dst+1）·vn，t+1（st+1,1，ξ[t+1，\'t]，εst+1，-1，χ[t+1，`t]），（26）其中χn的含义-1t（圣，-1 | dxt，-1）从（12）开始，然后从（13）开始，再从| gnt（st，xt | dst+1）开始。e（26）与NG（22）没有实质性差异。

[量化金融] 顺序半匿名非原子博弈与它们的大博弈之间的联系 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群