|
换句话说,唯一能确保玩家按照DM的偏好行事的奖金计划,是一个自相矛盾的、独立于玩家行为的奖金计划。4.1固定作用集我们证明的第一个定理是构造性的。对于每一组动作A,我们都指定一个op Timal奖励计划f。我们提出的最佳奖金计划f在玩家学习的差异上是线性的。我们从有界集SA的简单情况开始。确定一组纯动作a。确定包含Sa所有值的最小、有限和闭合区间,并确定IA中最大元素的绝对值(w.r.t绝对值)。也就是ωPOhm 而每个动作Xi,都是Xipωq P IAand | Xipωq | MA。通过FIPRQ“$和%k`rkj”1pri\'rjq2kpk\'1qMA,如果r P IkA,k,如果r r IkA,确定线性奖金计划f。可以验证f是否已确定,因为对于每项r P Rk,平等性定理1.对于每一组具有有限支撑SA的纯作用A,MA线性Bonuplan是最优的。证明。我们必须证明pX,…,Xq是Gf中的平衡,或等价地,对于每一个参与者i和参与者i的每一个策略q“rni”1qixio(当q‰X时),不等式E rfipX,XqsaE rfipq,X,Xqs h olds。在不丧失一般性的情况下,假设i“1,因此rfpq,X,…,Xqs”E<<f"yn"yi“1qiXi,X,…,X,ff”E“pk\'1qrni”1qiXi\'pk\'1qX2kpk\'1qMA`k“2kMAE<<n"yi”1qiXi\'X fff\'kak”E rfipX,…,Xqs,当第二个和最后一个等式从f的定义开始跟随f,不等式从q‰X和Erqs“E rrni”1qiXisaErXs这一事实开始跟随。pX,…,Xq是一个平衡的事实并不令人惊讶。它直接从ri中fiprq的线性开始。
|