|
行动O给予代理人的报酬为-1/3在初始阶段和选择权下一阶段进行投资,其中有两种可能的状态,即Saa和sB。如果θ*= 1,如果θ*= 0.在上述每个州,代理人都可以选择进行风险投资或安全投资。安全投资在这两个州的回报率为2/3,在未来所有时期的后续回报率为零。风险投资给代理人的报酬是她从选择a中获得的报酬的三倍,即3(1)- θ*), 如果状态是sA,它会给代理人三倍于她从选项B中获得的报酬,即3θ*,如果国家是某人;所有未来时期的收益均为零。假设代理知道除θ值以外的所有基元*. 设Θ={0,1};特别是,SMDP是正确指定的。我们现在表明,在anyBerk-Nash均衡中,一个有效的患者代理人永远不会选择安全行动S:Letu∈ [0,1]表示主体对θ概率的平衡信念*= 1.为了使行动S优于A和B,必须满足以下条件:∈ [1/3, 2/3]. 但是,对于固定的u,行动O的感知收益是-+ δuV¨Qu(sA)+(1)- u)V'Qu(sB)= -+ δumax{,3(1- u)} + (1 - u)最大{,3u}≥ -+ δ6u(1 - u),严格高于所有u∈ [1/3,2/3]前提是δ>δ=3/4。因此,对于一个有充分耐心的代理人来说,不存在使行动S最优的信念,因此,在任何伯克-纳什均衡中都不会选择S。现在考虑一个贝叶斯代理,它从一个先验的u=Pr(θ=1)开始∈ (0,1)并更新了她的信仰。行动的价值在于-+ δ(uW(sA,1)+(1- u)W(sB,0))=-+ δ<因为W(sA,1)=W(sB,0)=2/3。
|