|
,ξN)以及行动选择a∈ A由所有代理制作,代理i的效用为ui(A:,i,A:,-i、 ξi):=EPaUAi公司ξi+Γi(XT)-ZTki(s,a:,is,Xs)ds, (2.5)带UAI(x):=- 经验值-里亚克斯, 十、∈ R、 Γi:RN-→ R、 其中RAi>0表示代理i的风险规避,mapΓi对应于代理i将其绩效与其他代理的绩效进行比较。这个映射很一般,一个典型的例子是i(x):=γixi- \'\'x-我, 十、∈ RN,(2.6),其中γ是一个给定的非负常数,即代理i的竞争指数。该设置对应于每个代理将其性能与其他代理的平均性能进行比较的情况。γiis越高,代理i的竞争力就越强。通常,我们假设比较图满足假设2.4。对于任何1≤ 我≤ N、 地图Γi=RN-→ R是(Borel)可测量且满足的,对于某些C>0 | i(x)|≤ C(1+kxk),x∈ 注册护士。2.5委托人的合同设置既然已经很好地理解了代理人的动机,我们可以转向委托人的设计。在我们的环境中,委托人在时间0同时向每个代理人提供合同,并且他可以承诺任何此类合同。对于任何1≤ 我≤ N、 然后,代理i的合同将被表示为实值随机变量ξi,目前,我们只假设该变量是FT可测量的,表示代理i在合同结束时T将收到的金额。请注意,没有跨期付款。给定终端支付ξ的向量,交互中的代理系统将选择一些响应动作a∈ A、 因此,每个代理将在时间0时从游戏中获得效用值ui(A,ξi)。
|