|
然后I(θ,s,ν*, 0)=u(θ,s,π*(·| s))对于每个θ,s,因为当决策者完全没有耐心时,Gittins指数等于近视的回报。这表示I(θ,s,ν*, 0)≥maxs6=sI(θ,s,ν*, 0)和I(θ,s,ν)*, 0)≤ maxs6=sI(θ,s,ν*, 0)。4聚合发送方和接收方响应在本节中,我们将定义并分析聚合发送方响应R:π→ π和聚合接收器响应R:π→ ∏。粗略地说,这些都是大量学习静态信号游戏中最佳响应函数的类比。如果我们确定-iπ处的人口-我从任意初始状态一段一段地运行学习模型,游戏在i种群中的分布将接近Ri[π-i] 。在第5节后面,这对(R,R)的固定点将描述学习系统的稳态。4.1聚合发送方响应为了正式定义聚合发送方响应,我们首先引入单周期转发映射。定义3。θ、fθ型单周期正演图:(Yθ)×π→ (Yθ)isfθ[ψθ,π](Yθ,(s,a)):=ψθ(Yθ)·γ·1{σθ(Yθ)=s}·π(a | s)和fθ[ψθ,π]() := 1.- γ。如果θ型总体中历史上的分布是ψθ,而接收总体的增益区是π,则θ型总体中历史上的结果分布是fθ[ψθ,π]。具体而言,将有一个1-新型θ的γ质量将没有历史。此外,如果新类型θ的最佳第一个信号为s,即σθ() = s、 那么fθ[ψθ,π](s,a)=γ·(1- γ) ·π(a | s)新发送者在第一次匹配时发送,观察动作和响应,然后存活。
|