|
现在,我们推导出了经验最优解下样本外预期报酬和方差的扩展,这将作为研究样本外执行鲁棒优化的基线情况。为了便于记法,我们表示样本外奖励在xn(δ)和总体解x下的平均值和方差(δ) asun(δ):=EPf(xn(δ),Yn+1), vn(δ):=VPf(xn(δ),Yn+1), (4.6)u(δ) :=EPf(x(δ) ,Yn+1), v(δ) :=副总裁f(x(δ) ,Yn+1),(δ=0对应于经验优化)。预期r向的曲率和x处奖励方差的二阶导数(δ) 也会出现。我们表示这些灰分(δ):=EPxf(x(δ) ,Yn+1),G(δ):=xVP公司f(x(δ) ,Yn+1), (4.7)其中xVP公司f(x(δ) ,Yn+1)定义见(4.5)。样本外奖励的均值和方差取决于经验解xn(0)的可变性和奖励函数的性质。下面的结果将经验优化者的样本外奖励的均值和方差与流行优化者x的均值和方差联系起来(0).18 GOTOH、KIM和LIMProposition 4.2。假设f(x,Y)满足假设3.1。则经验解xn(0)下样本外奖励的均值和方差满足un(0)=u(0)+2ntrξ(0)H(0)+ on, (4.8)vn(0)=v(0)+2ntrξ(0)G(0)+ on, (4.9)其中u(0)和v(0)是总体优化器x的样本外平均值和方差(0).证据从(4.6)中可以清楚地看出,样本外奖励的平均值和方差取决于解xn(0)的分布特性、奖励函数和Yn+1的分布。
|