|
通过考虑变量u在纳什均衡点附近的二阶泰勒展开式,以及假设它们是输入ui的凸函数,可以等效地激发这种近似。然而,这种扩展并没有假设QI对博弈状态x的依赖性。(4.4)的形式设计为每个^Qθipx;ui,u'iq是ui的凹函数,保证NuPU^Q是双射的。此外,在我们的模型假设下,纳什均衡是在upxq“upxq”点实现的,在这一点上,优势函数为零,因此我们得到了值函数和均衡策略(4.6)^Vθpxq“NuPU^Qθpx;uq和upxq)的简单表达式“arg NuPU^Qθpx;uq。因此,我们的模型允许我们通过函数uθ和^Vθ直接指定纳什均衡策略和每个代理的价值函数。这种简化的结果是,方程(4.2)中损失函数的和变得容易处理,其中包含纳什均衡,并且其本身以前很难处理。对于每个样本观察(由状态xm、um和新状态xm组成)然后我们有(4.7a)Lmpθq的损失”^Vθpxmq `pAθpxm;umq'rpxm;umq'γi^Vθpxmq,剩下的就是最小化总损失(4.7b)Lpθq“MM"ym”1Lmpθqover参数θ给定一组观察到的状态动作三元组pxm,um,xmqMm”1.4.1。简化游戏结构。方程(4.4)需要函数^Vθ、uθ、tPθi、ψiuiPN的参数模型,这可能会导致非常大的参数空间,原则上需要许多训练步骤。然而,在许多情况下,博弈的结构可以显著降低参数空间的维数,并导致易于学习的模型结构。以下小节列举了这些典型的相似应用。标签不变性。
|