纳什均衡的深度Q学习：纳什DQN - 第2页 - 外文文献专区

11楼

发表于 2022-6-14 13:41:38

通过考虑变量u在纳什均衡点附近的二阶泰勒展开式，以及假设它们是输入ui的凸函数，可以等效地激发这种近似。然而，这种扩展并没有假设QI对博弈状态x的依赖性。（4.4）的形式设计为每个^Qθipx；ui，u'iq是ui的凹函数，保证NuPU^Q是双射的。此外，在我们的模型假设下，纳什均衡是在upxq“upxq”点实现的，在这一点上，优势函数为零，因此我们得到了值函数和均衡策略（4.6）^Vθpxq“NuPU^Qθpx；uq和upxq）的简单表达式“arg NuPU^Qθpx；uq。因此，我们的模型允许我们通过函数uθ和^Vθ直接指定纳什均衡策略和每个代理的价值函数。这种简化的结果是，方程（4.2）中损失函数的和变得容易处理，其中包含纳什均衡，并且其本身以前很难处理。对于每个样本观察（由状态xm、um和新状态xm组成）然后我们有（4.7a）Lmpθq的损失”^Vθpxmq `pAθpxm；umq'rpxm；umq'γi^Vθpxmq,剩下的就是最小化总损失（4.7b）Lpθq“MM"ym”1Lmpθqover参数θ给定一组观察到的状态动作三元组pxm，um，xmqMm”1.4.1。简化游戏结构。方程（4.4）需要函数^Vθ、uθ、tPθi、ψiuiPN的参数模型，这可能会导致非常大的参数空间，原则上需要许多训练步骤。然而，在许多情况下，博弈的结构可以显著降低参数空间的维数，并导致易于学习的模型结构。以下小节列举了这些典型的相似应用。标签不变性。

12楼

何人来此

发表于 2022-6-14 13:41:41

许多游戏都有对称的玩家，因此对玩家标签的变异不变性。这种标签不变性意味着每个agent-i在其他游戏参与者之间没有差别，并且agent的奖励函数独立于所有其他agent状态和/或动作的任何重新排序。更正式地说，我们假设对于任意代理-i，游戏状态可以表示为x“px，xi，x'iq，其中x表示不属于任何代理的游戏状态部分，xi表示属于代理i的游戏状态部分，x'i”txjujPN{tiures表示属于其他代理的博弈状态部分。接下来，让∧表示N'1指数集上的置换集，其中对于每个λP∧，我们将集合的置换表示为λptyjuN'1j“1q”tykpjquN'1j“1，其中k:t1，…，N'1u~nt1，…，N'1u是一对一，并从集合的索引映射到自身。标签不变性等同于假设对于任何λP∧，每个代理的回报函数满足（4.8）ripx，xi，λpx'iq；ui，λpu'iqq“ripx，xi，x'i；ui，u'iq。利用此类标签不变性，简化（4.4）中优势函数的线性二次展开形式。假设dj”d，对于所有j P N，仅要求代理的动作具有简化形式（4.9）pAθipx；uq“'>>ui'θipxq>>Pθ11，ipxq''jPN的独立标签不变性{tiuA'ui'uipxqθ\'，uj'uθjpxq'EPθ12，ipxq'jPN{tiukuj'uθjpxqkPθ22，ipxq'jPN{tiu'uj'uθjpxq'ψθpxq，对于所有i P N，我们使用符号}z}M“z | Mz和xy，zyM“y | Mz表示适当的分解矩阵M（4.9）的函数形式允许我们大幅度减小按N阶建模的矩阵的大小。为了对状态施加标签不变性，我们需要对函数近似值^Vθ、uθ、tPi、ψθuiPN的输入具有置换不变性。

13楼

mingdashike22

发表于 2022-6-14 13:41:44

[20] 为神经网络结构提供置换不变性的必要和充分条件。这一必要且有效的结构定义如下。设φ：Rn尼Rnandσ：Rn尼Rn是两个任意函数。从这些函数中，让finv:RJ^n~nRnbe这些函数的组合，这样（4.10）finvpzq“σ▄J"yJ”1φpzjq,。很明显，以这种方式构建的Finvcon对z组件的重新排序是不变的。方程（4.10）可以解释为一个层，它聚集了输入的所有维度（对应于所有代理的状态），通过φ，以及通过σ将聚合结果转换为输出的层。我们进一步假设φ和σ都是具有适当输入和输出维数的神经网络。这种结构可以作为输入嵌入到更复杂的神经网络中。相同的首选项。很常见的情况是，所有代理的容许行为都是相同的，即。，Ui“U、@i P N和代理具有同质的目标，或者代理的大子群体具有同质的目标。到目前为止，我们允许代理分配不同的绩效指标，并且变化通过一组奖励和折扣率tri、γiuiPN来显示。如果代理具有相同的偏好，那么我们只需假设x；uq“rpx；uq和γi“γ对于所有的i P N。通过定义总折扣报酬、状态行动价值函数和价值函数，相同的偏好和可容许的行动，简单地说，Ri，qind via独立于i。此外，相同偏好的假设，结合标签不变性的假设，可以进一步减少优势函数的参数化。在这个附加假设下我们有一个假设，即所有i的^Vi，pai必须相同，这将所有^Vθi，uθi，Pθi，ψθ的建模简化为对单个i的建模。

14楼

nandehutu2022

发表于 2022-6-14 13:41:47

这进一步减少了必须按N阶建模的函数数量。标签不变性和相同偏好的组合效应会产生复合效应，这会对建模任务产生很大影响，特别是在考虑大量玩家时。备注4.1（子总体不变性和偏好）。我们还可以考虑标签和偏好不变性发生在代理子群体中，而不是整个群体中的情况。例如，在一些代理可能与其他代理合作的游戏中，我们可以假设代理不愿意分别重新标记合作者和非合作者。类似地，我们可以考虑代理组共享相同性能指标的情况。除其他情况外，此类情况会导致建模简化，类似于方程式（4.9），并可简化神经网络结构。在《空间的利益》一书中，我们没有进一步发展简化例子的例子，也没有声称我们提供的列表是详尽无遗的，因为人们可以很容易地想象出许多其他可能感兴趣的几乎对称的例子。5、纳什行动者批评算法的实现。利用优势函数的局部线性二次形式和前一节中概述的简化假设，我们现在可以通过迭代优化和采样方案最小化目标（4.2），将参数θ上的和减少到（4.7）上的和。原则上，可以在适当的损失函数上使用反向传播的简单随机梯度下降方法。相反，我们提出了一种演员-评论家风格的算法来提高算法的稳定性和效率。演员-评论家方法（参见。

15楼

能者818

发表于 2022-6-14 13:41:50

[13] ）已被证明为强化学习方法的最优解提供了更快、更稳定的收敛性，我们的模型自然适用于此类方法。方程（4.3）中的分解允许我们独立于其他组件对值函数^V进行建模。因此我们通过分离参数集θ“pθV，θAq，使用演员-评论家更新规则来最小化损失函数（4.7），其中θvre表示建模的参数集θVθVandθare表示建模PAθA所用的参数集。我们提出的演员-评论家算法通过最小化总损失（5.1a）MM"ym来更新这些参数“1^L pym，θV，θAq，其中，在已经求解纳什均衡之后，与纳什-贝尔曼方程中的误差相对应的单个样本损失为（5.1b）Lpym，θV，θAq”^VθVpxmq` pAθApxm；umq'rpxm；umq'γi^VθVpxmq,有了um，ym“pxm，um，xmq，我们通过在变量θa和θV中交替最小化来最小化损失。下面的算法5.1概述了我们优化问题的演员-评论家程序。我们包括一个重播缓冲区，并使用小批量。重播缓冲区是以前经历过的形式为yt的转换元组的集合“pxt'1，u，xtq代表系统的前一个状态，在该状态下采取的行动，系统的结果状态，以及过渡期间的奖励。我们从replaybu ffer中随机抽取一小批样本，使用SGD更新模型参数。

16楼

可人4

发表于 2022-6-14 13:41:53

该算法还使用了naive Gaussianexploration策略，尽管它可以被任何其他动作空间探索方法所取代。在θVandθA上的优化步骤中，我们使用随机梯度下降或任何其他算法5.1 Nash DQN演员-评论家算法输入：#集Ba0，小批量大小^Ma0，#游戏步骤九输入：探索噪音tσbuBb“1a0初始化：重播buff D，参数pθA，θvqf对于情节bD1到b doReset模拟，获取初始状态x。对于游戏步骤tD1到N doSelect actions uDuθApxq ` , " N p0，σbIq。观察游戏中的状态转换yt“pxt'1，u，xtq。存储DDyt”pxt'1，u，xtqSample Y“tyiu^Mi“1随机从^M\'1ryPYTtytu^Lpy，θV，θAq overθvo优化步骤^M\'1ryPYTtytu^Lpy，θV，θAq over aendredreturn pθA，θVqadaptive优化方法。6.实验。我们在一个多代理游戏上测试我们的算法，该游戏在电子交易所行为研究中很重要，称为最优执行问题。该游戏由代理交易sin组成将资产与受其影响的随机价格过程联系起来。任意代理人-i，i P N，可以买卖νi，在每个时间段T P T：“t0，1，…，T u。在T”T，代理人必须完全清算其持有的资产。每个代理人-i跟踪其库存qi，T”qi，0 `rts“0νi，沙库存对分配代理人可见。我们假设资产价格过程根据离散动力学（6.1）St ` 1 ` St”gpSt，νtqT\'gpSt，νtq？TξT，初始条件为S。这里，对于所有TρT，νT“pνi，tqip和ξ皮重iid N p0，1q。所有代理行为的影响都通过函数和g中资产价格动态的漂移和噪声来显示。我们假设与νtsothat的顺序有关的甘德·加雷不变量，对于相同的库存，无论哪个代理在交易，S的响应是相同的。

17楼

nandehutu2022

发表于 2022-6-14 13:41:57

此外，每个代理支付的交易成本与他们在每个时间段内决定购买或出售的金额成比例。代理跟踪其交易总现金，我们表示相应的流程Xi，t“rts”0νi，spSs\'bνi，sq，其中ba0是交易成本常数。代理人的目标是最大化（i）到t时他们拥有的现金总额，（ii）风险承担的罚款，以及（iii）到t时的超额敞口。我们将代理人-i的目标（总预期回报）表示为（6.2）Ri：“E<<Xi，t\'qi，TpST\'bqi，Tq\'bT"yt”1qi，tf，其中b，ba0。在等式（6.2）中，第二项作为在时间T即时清算库存的成本，最后一项作为承担与每个时间段持有量平方成比例的超额风险的惩罚。在这个目标函数中，所有代理人交易行为的影响都通过St的动态隐含地显现出来，并通过其对现金流程的影响Xi，t。这种特殊形式的目标假设代理人具有相同的偏好，这些偏好对代理人重新贴标签是不变的。因此，我们可以使用第4.1小节中讨论的技术来简化advantagefunctionpA的形式。在我们的示例中，我们使用包含置换不变层的神经网络对优势函数PA的每个组件进行建模。我们的实验假设在五个时间步长（T“15）的时间范围内总共有五个代理，库存水平限制在正负100个单位之间（qi，tPr'100，100s，对于所有i P N，T P T）。6.1特征。

18楼

大多数88

发表于 2022-6-14 13:42:00

我们使用以下特性来表示时间t时环境的状态XT：价格（St）：表示资产当前价格的标量，时间（t）：表示代理在时间范围内的当前时间步的标量，以及库存（pqi，tqiPN）：表示所有代理的库存水平的向量。我们假设前两组特征（价格和时间）加上每个代理的单个库存（qi，t）是非标签不变的，而所有其他代理的库存水平（tqi，tuiPN{tiu）是标签不变的。6.2网络细节。优势函数近似PAθa的网络结构由两个网络组件组成：（i）一个注入（ii）的置换不变层主网络层。置换不变层的输入是标签不变特征。如第4.1小节所述，该层是一个完全连接的神经网络，有三个隐藏层，每个隐藏层包含20个节点。层通过ReLU activationfunctions连接。然后，我们将该置换不变量的输出与非标号变体特征相结合，并将它们一起构成主网络的输入。主网络由三个隐藏层组成，分别有20个、40个和20个节点。该主网络的输出是第4节中定义的近似优势函数的参数uθ和tPθi，ψiuiPN。这些参数完全指定advantage函数的值。我们可以将其扩展到包括具有同质偏好的子群体的情况，但这在子群体中是异质的。值函数逼近^VθV的网络结构包含四个隐藏层，分别有20、60、60和20个节点。

19楼

何人来此

发表于 2022-6-14 13:42:03

该网络采用第6.1小节中描述的所有状态的特征，并输出所有代理的近似值函数。我们使用小批量随机梯度下降法来优化第5节中定义的损失函数。小批量大小设置为100个均匀抽样的重播buffer过去的经验。重播buffer设置为最大五千套转换，当达到大小限制时，将从buffer中移除最古老的转换。学习率设置为0.01，并在整个培训过程中保持不变。培训总共进行了15000次模拟。在接下来的两小节中，我们使用两种常见的价格影响函数——线性情况和平方根情况来研究结果。在这两种情况下，在没有交易的情况下，假设价格过程意味着恢复。6.3. 线性价格影响。在本例中，我们假设一个具有线性价格影响的均值回复价格过程，对应于选择（6.3）gpSt，νtq“κpθ'Stq'b"yiPNνi，t和gpSt，νtq”σ，其中b，κ，θ，σa0分别是与净交易的价格影响、价格过程的平均回复率、平均回复水平和资产的波动性相对应的常数。我们将所有其他代理的平均库存和相应的平均库存表示为（6.4）'ν'i：“N'1"yjPN{tiuνj，t和'q'i：“N'1"yjPN{tiuqj，t，@i P N，分别。在我们的实验中，我们使用表1中的参数。回想一下，代理的回报函数由（6.2）给出，而B对应于终端和运行风险惩罚。

20楼

nandehutu2022

发表于 2022-6-14 13:42:07

为了限制代理人在时间步T必须处于中立地位，我们设置了b“`8.表1：资产价格过程、价格影响和风险偏好参数。κθσbbbT0.1 10 1 0.3\'8 0.1图1通过查看单个代理的最佳交易策略，说明了由此产生的纳什均衡。具体而言，它显示了第一个代理的最佳行动的热图ν1、时间、价格、库存以及其他代理的平均库存有所不同。面板（a）、（b），和（c）表示所有其他代理的平均库存水平为长（\'q\'i“20）、零（\'q\'i“0）和短（\'q\'i”20）的状态分别地每个面板进一步分为不同资产价格t$6、$8、…、$14u从左到右。每个子批次的y轴表示第一个代理的库存水平，x轴表示当前时间步长。（a） \'q'i“20（b）\'q'i”0（c）\'q'i“'20图1：线性价格影响的最佳交易执行热图，作为时间、库存、价格和其他代理的平均库存的函数。在每个面板中，子批次从左到右对应价格水平$6、$8、$14。虚线显示代理从购买切换到出售的阈值。图2：库存路径示例和对应的价格路径线性冲击模型。实线表示代理的库存路径，虚线表示资产价格路径。如图所示，每当代理商的库存明显为负时，他们就会买入，当库存明显为正时，他们就会卖出。切换发生的阈值取决于系统的其他功能，包括：自交易期开始以来的时间、资产价格和其他代理的库存水平。系统越接近交易周期的终点，该阈值就越接近零库存水平。

[量化金融] 纳什均衡的深度Q学习：纳什DQN [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群