|
另一方面,x=-1有负即时奖励,她不应该在2020年3月10日在y=-因此,由于x=1的玩家的预期奖励为0,因此*= φ[0, -1,w]=I和γ*= φ[0, -1,w]=0可以是所有w的解。我们可以用类似的方式证明第八部分。x=1且r=1的玩家在y=-2,因为即时奖励为0。另一方面,x=-1 andr=1倾向于在y=-2因为她的即时回报是负的,因此*= φ[1, -2,w]=Iandγ*= φ[1, -2,w]=0是解决方案。第三部分是第四部分和第七部分的直接结果。为了证明第一部分,充分证明如果γ*= φ[r,y,w]=I,解是一个阈值策略wrt w,y<y,然后是γ*= φ[r,y,w]=I是w<w的解(注意,它可能不是唯一的情况,我们讨论的是存在性。因此,如果解不是这种类型的,我们可以构造这种类型的解,后面会解释)。假设对于状态s=(x,r,y,w),我们有γ*= φ[r,y,w]=I。这意味着x的瞬时回报=-1在y不超过玩家将购买的终止状态下不购买的预期估值,即奖励的平均值;0在玩家决定不购买产品的终止状态下(见引理3的证明)。不购买决策的最终状态越有可能,不购买的即时回报和预期估值之间的差异就越大。因此,对于具有相同即时奖励的两种不同状态,即相同的y,我们可以比较它们的终止状态,以了解玩家在这两种状态下的决定。当w<w时,考虑s=(r,y,w)。
|