|
(32)因此,状态转移因Γg的平稳性而变得平稳。表示由上述S,X,Γα,Γf和Γg形成的平稳非原子博弈∞. 它有助于第一次研究在t+1,fort=0,1。。。。现在让vt(s,ξ[1t],σ,χ[1t])为球员在s状态开始时可以获得的总预期报酬∈ 在第1阶段中完成,并通过行动计划ξ[1t]∈ (K(S,X))t从周期1到t,而所有其他参与者形成状态分布σ∈ P(S)在开始时根据χ[1t]采取行动∈ (K(S,X))t从周期1到t。作为终端条件,我们有v(S,σ)=0。同样,对于t=1,2。。。,vt(s,ξ[1t],σ,χ[1t])=RXξ(s | dx)·[~f(s,x,σ) χ) +α·RS~g(s,x,σ) χ| ds′)·vt-1(s′,ξ[2t],T(χ)o σ、 χ[2t])]。(33)使用终端条件和(33),我们可以归纳地显示|vt+1(s,ξ[1,t+1],σ,χ[1,t+1])- vt(s,ξ[1t],σ,χ[1t])|≤ αt·f.(34)给定s∈ S、 ξ[1]∞]= (ξ, ξ, ...) ∈ (K(S,X))∞, σ ∈ P(S)和χ[1]∞]= (χ, χ, ...) ∈(K(S,X))∞, 序列{vt(s,ξ[1t],σ,χ[1t])|t=0,1,…}因此是柯西,有一个极限点v∞(s,ξ[1]∞], σ, χ[1∞]). 后者是玩家在游戏Γ中获得的总折扣预期报酬∞, 当他从s州开始并通过行动计划ξ[1]时∞], 同时,让玩家形成初始的动作前环境σ,并按照χ[1]进行动作∞].行动前的环境∈ P(S)被认为与χ有关∈ 当σ=T(χ)时的K(S,X)o σ. (35)也就是说,当环境σ与行动计划χ相关联时,前者在一个周期的过渡期内不变,而所有参与者都遵守后者。
|