|
然后,1/4和3/4都会使库尔贝克-莱布勒分歧最小化,但它们意味着对结果的不同分配。与此相关的是,伯克(Berk,1966)证明了信念并不一致。证据仅当:假设(σ,m)是Berk-Nash均衡。然后存在μ,例如给定MDP(\'Qu),σ是最优的∈ (Θ(m)),以及∈ 智商(σ)。因为MDP是正确指定的,所以存在θ*这样Qθ*= Q,因此,是3(i),θ*∈ (Θ(m))。然后,通过强识别,任何^θ∈ Θ(m)满意度Q^θ=Qθ*= Q、 这意味着,给定MDP(Q),σ也是最优的。如果:让我∈ IQ(σ),其中σ是给定MDP(Q)的最佳值。由于SMDP的规格正确,因此存在θ*这样Qθ*= 因此,通过引理3(i),θ*∈ (Θ(m))。因此,给定Qθ,σ也是最优的*, 这意味着(σ,m)是伯克-纳什均衡。命题1表示,在代理人对转移概率函数不确定,但其主观模型既有正确的定义,又有强烈的识别性的环境中,伯克-纳什均衡对应于转移概率函数正确信念下的MDP解。如果放弃SMDP被强烈识别的假设,则命题的“如果”部分继续成立,但“仅如果”条件不成立。换句话说,可能存在正确指定的SMDP的伯克-纳什均衡,其中代理对均衡路径有错误的信念。
|