|
doSelect价格:pt← arg最大值∈Purt-1(p)+√νtσrt-1(p);示例收入函数:rt← pt·fd(pt)- fc(pt)+εrt;更新估计值:oudt和σdt,通过执行GP后验更新(2.5);oucT和σcT通过执行GP后更新(2.5);o获得urt,σrt;在这一节中,我们展示了所提出的方法得到的理论分析。我们关于累积遗憾的主要结果在第4.1节的定理4.1和第4.2节的定理4.2中进行了阐述,并给出了一些结论。4.1. 自适应GLM算法证明了广义线性模型(GLM)中最大拟似然估计的强相合性和收敛性。Lai和Wei【8】研究线性随机回归模型中的最小二乘估计。Chen等人【41】将Lai和Wei【8】的结果扩展到具有正则链接函数的GLMs。遗憾界限取决于设计矩阵pta的最小特征值λmin(t)的下界以及所选价格和最优价格之间差异的预期值。我们将首先表明,研究后悔的界限等同于研究kβ的界限- βk.命题4.1。假设有一个开放的、有界的邻域V∈ R2×3为真β,因此,对于所有β∈ V,我们可以找到唯一的最优价格p*最大化收益函数r(p,β)。Givenp(β)∈ Pr(p*,β)p=0和r(p,β)p<0,我们可以导出| r(p,β)- r(p*, β) |=Okp公司- p*k. (4.1)此外,如果我们假设存在∈ N使得bβt∈ V代表所有t≥ t、 那么p(bβt)- p(β)= Obβt- β. (4.2)证明。见附录B。我们关注一个简单的情况,其中链接函数是正则的,即˙h(·)=v(h(·))。这就给出了t(bβt)=tXi=1σp(i)易- h类p> (i)bβt= 0 .在假设A1和A2下,我们证明了MQLEbβt实际上存在,并且该估计量也是非常一致的。提案4.2。假设假设A1和A2满足并支持∈Pkpk≤ r<∞,其中r=ph- pl。
|