|
通常Ctistaken是θ的一致估计量*.现在,我们确定一个置信水平α∈ (0,1),每次t∈ T、 我们假设θ有一个(1-α)置信域,比如ΘT*, 可表示为Θt=τ(t,Ct),(3.4),其中,对于每个t∈ T、 τ(T,·):Rd→ 2Θ是确定性集值函数。请注意,鉴于(3.3),(3.4)中给出的密集区域的构造确实是递归的。在构造置信域时,映射τ(t,·)将是一个可测的集值函数,具有紧凑的值。第4节构造的递归置信域的重要性质是→∞Θt={θ*}, 其中会聚被理解为Pθ*几乎可以肯定,限制在豪斯多夫度量中。但总的来说,情况并非总是如此。在[BCC16]中显示,对于此处研究的模型设置,收敛在概率上是成立的。序列Θt,t∈ t表示学习θ*根据历史观察Ht,t∈ T(参见下面的(3.6))。我们引入了增广状态过程Yt=(Xt,Ct),t∈ 我们用EY表示EY中Borel可测集的集合。过程Y具有以下动力学,Yt+1=T(T,Yt,ДT,Zt+1),T∈ T、 为了简化我们的研究,假设在每个测度Pθ下,序列Z是i.i.d。通常,2Θ表示Θ的所有子集的集合。自适应鲁棒控制7,其中T是映射T:T×EY×A×Rm→ 定义的asT(t、y、a、z)=S(x,a,z),R(t,c,z), (3.5)式中,y=(x,c)∈ EY。为便于将来参考,我们定义了相应的历史记录ST=((X,C),(X,C),(Xt,Ct)),t∈ T,(3.6)因此∈ Ht=EY×EY×。×EY |{z}t+1次。(3.7)显然,对于任何容许的控制过程,随机变量HTFT是可测量的。我们表示Ht=(y,y,…,yt)=(x,c,x,c,…,xt,ct)(3.8)Ht的实现。注意h=y。备注3.1。
|