|
最后,如果Tθj=∞, 那么显然Tθj≤ ∞ = 现在仍然需要通过归纳法来证明语句序列。语句1是基本情况。通过矛盾的方式,假设Tθ<∞ 和#s | yTθθ(a)!>#s | yTθθ(a)!对于一些s6=s,则有一些最早的周期t*< Tθ,其中#s | yt*θ(a)> #s | yTθθ(a)!,其中θ型在sin周期t中起作用*, σθ(yt*-1θ(a))=s。但根据施工,在周期t结束时*- 1θ型在Tθ周期内发送的次数实际上与θ型在Tθ周期内发送的次数相同- 1,以便#s | yt*-1θ(a)= #s | yTθ-1θ(a)!。此外,这两种类型都没有发送syet,所以#s | yt*-1θ(a)= #s | yTθ-1θ(a)!。因此,θ型在接收器对信号和周期t的反应上保持相同的后验值*- 1就像θ型在周期Tθ时所做的那样- 1、索比定理1,s∈ arg max^s∈SIθ,^s,yTθ-1θ(a)==> I(θ,s,yt*-1θ(a))>I(θ,s,yt*-1θ(a))。(4) 然而,通过Tθ的构造,我们得到了σθyTθ-1θ(a)!=s、 通过Gittins指数政策的最优性,方程(4)的左侧得到满足。但是,同样通过Gittins指数政策的最优性,方程(4)的右侧与σθ(yt)相矛盾*-1θ(a))=s。因此,我们已经证明了陈述1。现在假设语句j对所有j都成立≤ K、 我们证明了语句K+1也成立。如果θK+1是有限的,那么TθKis也是有限的。归纳假设显示了#s | yTθKθ(a)!≤ #s | yTθKθ(a)!在下面的等式和证明中的其他地方,我们滥用符号,将I(θ,s,y)写入平均I(θ,s,g(·| y),Δγ),这是通过更新之前的gusing历史y获得的信号s在后面的θ型Gittins指数,具有有效的贴现因子Δγ。对于每个s6=s。假设有一些s6=s,其#s | yTθK+1θ(a)!>#s | yTθK+1θ(a)!。与前面的不等式一起,这意味着在第K次玩SFO和第(K+1)次玩SFO之间的某个时间,为“#s | yTθK+1θ(a)!+1#-次玩θ。
|