|
对于一阶近似值(我们在下面更正式地考虑),区间的形式如下(-bt,bt),对于一些btto b e确定。当MLE和代理近似值之间的差值超过该阈值时,最佳策略是设置Θt=^pt(这是因为^pt是p的无偏估计,调整成本不取决于调整的大小)。为了找到bt,我们将在一个宽松的制度下工作,其中我们考虑小成本λ→ 0和fix a lar ge终端时间T→ ∞. 特别是,我们假设为T→ ∞, 有一个时间t*→ ∞ 这样,在区间内的长期成本*, 构成已实现成本的主体,以及区间成本[0,T*] 可以忽略。我们首先考虑两个顺序切换时间t<t之间的跟踪误差行为,其中t*≤ t、 (注意t*→ ∞ 作为T→ ∞, sot公司→ ∞ 根据假设。)我们假设BT→ 0,tbt→ ∞,btbt公司→ 1和TBTTBT→ 所有t均为1∈ [t,t](12)作为t→ ∞, λ → 我们将看到这些假设与最佳btwe结构一致。我们可以写^pt- ^pt=ttXi=t+1(Yi- ^pt)≈ttXi=t+1(Yi- ^pt),(13)当t-1.- t型-1很小,正好是t→ ∞. 假设它很大,我们知道p(Yi=1)=p≈ ^pt≈ ^pt,因此跟踪误差大约是一系列平均zero iidrandom变量的总和,并且可以很好地建模为随机游走,每一步都有概率^pt。为了符号的简单性,我们写下^σt=^pt(1- ^pt),这是我们观察到的估计方差。注意^σt→ p(1- p) 作为t→ ∞, 特别是σt≈ ^σt*当T(因此T*) 是大的。将跟踪误差近似为随机游动,我们选择BTS以最小化预期成本。我们必须在我们的运营成本和此计算之间进行权衡,这是一种经典/频繁的方法。
|