|
当然,如果一个人有想法或很好地猜测到哪里可以最佳地推动受控过程,那么她不应该遵循探索式策略来构建培训集,而应该使用猜测来构建培训集,这在强化学习和随机强盗文献中被称为利用策略。我们参考Balata等人(2019),了解探索策略的其他几个应用,以构建培训集。请注意,这是所有基于Q学习的算法的根源。有关Q学习的更多详情,请参见Sutton和Barto(2018)。设F和G为Borelian函数,使得Zn=F锌-1,dn,英寸和Tn=G田纳西州-1.n、 在中,哪里n~ E(1)表示时间噪声,Dn表示状态噪声,表示n≥ 0、让我们≥ 1并考虑TVn,ZVnNn=0,按尺寸投影Tn、Zn在网格上Nn=0ΓTn×ΓEn,n=0,N,即TV=0,ZV=z,和TVn=项目GTVn公司-1.n、 在中, ΓTn,ZVn=项目FZVn公司-1,dn,英寸, ΓEn, 对于n=1,NTVn、ZVn、Inn∈{0,N}是一个马尔可夫链。然后确定TVQn,ZVQnNn=0as时间噪声量化版本TVn、ZVn、InNn=0。注意,我们不需要量化空间噪声,因为这种噪声已经具有一定数量的状态。设εnbe与n、 过程TVQn,ZVQnNn=0定义如下:ZVQ=z,TVQ=0和1.≤ n≤ 编号:TVQn=项目G^tn-1,εn,In, ΓTn,ZVQn=项目FZVn公司-1,dn,英寸, ΓEn.表示为VVQ,(N,D)NNn=0 Bellman方程的解与TVQn,ZVQnNn=0:(BVQN,D):VVQ,(N,D)N=0VVQ,(N,D)N(t,z)=r(t,z,a)+supa∈AnEat,zhVVQ,(N,D)N+1TVQn+1,ZVQn+1io,对于n=0。
|