为了计算回归的成本,首先必须注意,指标回归有一个封闭式公式(见[26]中的分割估计):对于响应(ψm)1≤M≤m对应于观测值(φm)1≤M≤M、 用H表示的指示函数的精度由αH=PMm=1ψmH(φM)PMm=1H(φM)给出;因此,每个时间点的回归成本与将模拟排序到指标中的成本成正比,这与维度d乘以模拟次数成正比。这意味着l级回归的成本也等于O(2lMl)。因此,回想一下ε=O(2-k) ,算法的总成本为kxj=0O(2jMj)≤ O(k)kXj=0O(2j(1+d))=O(ln(ε)-1+ 1)ε-2.-d) 。为了进行比较,我们用(27)代替(28-29)校准了备注3.8中描述的LSMDP算法的基函数和模拟次数。我们选择相同的基本函数,Mk=O(ε-1kK(k,2k- 1, ε)). 然后,设置ε=O(2-k) ,总体复杂度isk×Mk=O(ε-3.-d) 。我们观察到,与多级方案的复杂性相比,ln(ε)中的一个因子-1+1)已被系数ε取代-1,它要大得多。这意味着,与MDP相比,多级方案可能有效率增益因子ε(忽略对数项)。在我们的设置中,等于时间步数,这是实质性的。3.4定理3.7和3.9的证明我们在下面的命题3.11中陈述了OLS的基本性质(定义3.1)。这一命题事实上与[24,命题4.12]相同,我们建议对证明感兴趣的读者参考2018年7月3日14:28 21的论文。
|