楼主: 何人来此
882 45

[量化金融] 响应面排序的序贯设计 [推广有奖]

21
何人来此 在职认证  发表于 2022-5-9 03:57:23
该程序的合理之处在于:(i)我们预计Ek(x,`)在x方向上是平滑的,而且在x方向上是相对平滑的*; (ii)Ek(x,`)已经是一个近似值,因此无需对其进行精确优化;(iii)优化设计的性能应对采样位置的小扰动不敏感。为了在X中构造这样的候选集T,我们使用拉丁超立方体抽样(LHS)[37]。LHS候选人确保新位置具有代表性,且在X上间隔良好。关于T应如何设计的一些讨论,请参见[21,第3.4节]。此外,我们在每次操作中刷新候选集T,以启用“抖动”。下面的算法1以伪代码的形式给出了生成的方法。备注3.2。在克里格模型中,初始设计Z(K)对于算法学习响应的协方差结构至关重要。一个常见的挑战是避免12 Ruimeng Hu和Michael Ludkovski算法1使用KrigingRequire:K,K1:生成初始设计Z(K):=(x,`)1:Kusing LHS2:样本y1:K,估计GP核K`\'并初始化响应面模型M`3:使用(2.5)4:K构建分类器C(K)(·)← K5:当k<kdo6:生成一个大小为D7的新候选集T(k):计算每个x的预期改进(EI)Ek(x,`)∈ T,`∈ L8:选择一个新位置(x,`)k+1=arg max(x,`)∈T(k)×LEk(x,`)并对相应的yk+19进行采样:(可选)重新估计克里格核k`k+110:使用(2.12)-(2.13)11更新响应面M`k+1:使用(2.5)12更新分类C(k+1):保存整个网格Z(k+1)← Z(k)∪ (xk+1,`k+1)13:k← k+114:end while15:return Estimated Classifier C(k)(·)。假设42u’的fluits(按比例计算)太短。

22
何人来此 在职认证  发表于 2022-5-9 03:57:28
因此,K必须足够大,以合理估计K`;一个建议是K应为最终设计尺寸K的20%左右。在我们的实施中,初始化通过空间填充LHS设计完成(在L表面上均匀取样)。另一个问题是在算法1的步骤9中重新估计克里金核K`。重新训练在计算上很昂贵,并且使GPframework不连续。因为我们期望算法收敛为k→ ∞, 我们采用的实际规则是,根据倍增法[18]对K运行完整的估计程序,重新估计K=2,4,8。二的幂,否则就冻住它。3.1.1. 分层和并行采样。而不是直接在对(x,`)上采样∈ X×L,可以考虑两步程序,首先选择X,然后选择`(反之亦然)。这种策略与标准的顺序设计相匹配,而不是X。实际上,人们可以直接遵循[36,14]中的主动学习方法,首先使用差距指标选择xk+1,然后根据克里格方差选择指数“k+1”:xk+1=arg minx∈Xb(x) |Fk,cf.(2.16)`k+1=arg max`∈Lδ(k)`(xk+1)。(3.4)在选择xk+1的条件下,上述选择选择选择具有较大克里格方差δ`(x)的曲面,尝试在`之间均衡δ`(x)。请注意,(3.4)将关注最不确定的响应,而不是最有希望的响应,当L 2.另一种选择是选择“k+1”以贪婪地最大化信息增益,如(2.14)所示。这样的两步EI启发法可以避免必须指定UCB标准(3.1)的时间表。另一个变体是每个u`(·)的并行边际建模。这是通过concurrentsampling实现的:在选择位置xk+1之后≡ x、 一种是用L对(x,1),(x,2)。(x,L)。

23
kedemingshi 在职认证  发表于 2022-5-9 03:57:31
这种方法“并行化”所有响应面的学习,同时仍然采用顺序设计对响应面13进行排序,在X上构建自适应设计。当Y(X)的方差为零,σ(X)时,这种策略的缺点在极值情况下变得明显≡ 当Y(x)的噪声较大时为0。在这种情况下,在为每个响应(x,1)和(x,2)对给定位置进行一次采样后,我们将得到δ(x)=0,δ(x) 0.因此,来自Y(x)的另一个样本将完全无法获得任何信息,而实质性信息仍将从样本Y(x)中收集,使得平行样本的成本是所需成本的两倍。4.模拟实验。4.1. 玩具的例子。在本节中,我们将考虑一个简单的一维示例,其中包含综合数据,允许完全控制设置。设L=2,X=[0,1]。噪声响应Y(x)andY(x)由(参见[45,第4.4节]中的示例)Y(x)=u(x)+(十)≡sin(10x)1+x+2xcos(5x)+0.841+ σ(x)Z,Y(x)=u(x)+(十)≡ 0.5+σ(x)Z。这里Z\'是独立的标准高斯分布,噪声强度固定在σ(x)≡ 0.2和σ(x)≡ 0.1,在x中为同质,但在`=1,2中为异质。损失函数中的权重F(dx)=dx在X上是一致的。真正的排名等级C(X)由(4.1)C(X)=(2)表示∈ [0,r]∪ [r,1]1表示r<x<r,其中r≈ 0.3193,r≈ 0.9279.0.0.0.2 0.4 0.6 0.8 1.00.0 0.5 1.0 1.5xy●来自Y1的样本来自Y2u1(x)u2(x)真ui(x)0.000 0.015 EMPR的样本。损失0。0.2 0.4 0.6 0.8 1.0EI0 0.0003x0。0.2 0.4 0.6 0.8 1.00.0 0.5 1.0 1.5xy●来自Y1的样本来自Y2u1(x)u2(x)真ui(x)0.000 0.008Empr的样本。损失0。0.2 0.4 0.6 0.8 1.0EI0 4e-05xK=100k=400图1。响应面建模采用Gap SUR EI标准(3.2)。

24
可人4 在职认证  发表于 2022-5-9 03:57:34
我们绘制了真实表面u`(x)(黑色虚线),后验意味着bu`(x)(蓝色/红色实线),M(x)和M(x)的90%后验可信区间(浅蓝色/红色区域),以及采样位置x1:Kfory(x)(蓝色三角形)和Y(x)(红色圆圈)。中间的面板显示了局部损失M(x),cf.(2.7),而底部的面板显示了metricEK上的间隙(x,`)(蓝色:`=1,红色:`=2)。为了关注各种采集函数的性能,我们使用超参数s=0.1、θ=0.18(Kand s=0.1)将克里格核K`固定为Matern-5/2类型(2.11),θ=1表示K。这些超参数接近于通过训练Y`(x)14的克里格模型获得的超参数。Ruimeng Hu和Michael Ludkovski给出了x上的密集设计,因此很好地捕捉了上面响应面的平滑度。我们使用固定趋势t`(x)=0.5,并将给定的采样噪声σ`视为已知。为了应用算法1,我们用K=10个位置(x,`)1:K(Y(x)和Y(x)各五个)进行初始化,这是从[0,1]上的LHS设计中得出的。注意,因为克里格核被认为是已知的,所以KI被认为是非常小的。为了增加设计,我们采用Gap SUR Eichrition,并根据尺寸为D=100的LHS设计,使用新的候选集T(k)为下一个(x,`)k+1进行优化。图1显示了后响应面模型的演变。这两个面板显示了K=100和K=400时估计的M(K)`(x)(即我们绘制了后验指数bu(K)`(x)和相应的90%置信区间bu(K)`(x)±1.645δ(K)`(x))。我们观察到,大多数样本严重集中在两个分类边界r、r以及x=0时的“假”边界周围。因此,在这些八个样本中,克里格方差δ`(x)要低得多,为m`(x)的后可信区间生成了独特的“香肠”形状。

25
可人4 在职认证  发表于 2022-5-9 03:57:37
相比之下,在差距缩小的地区(x) 较大(例如,x=0.5左右),对响应进行排序很容易,因此几乎不采集样本,克里格方差仍然很大。此外,由于σ(x)>σ(x),u的可信区间更紧,δ(x)>δ(x),超过70%的样本来自第一个响应Y。事实上,我们发现D(k)\'3D(k),其中di(k):=|{1≤ K≤ K:`K=i}|是设计Z(K)中从第i个曲面开始的样本数。上述观察结果证实了EI分数取决于X和L维度的双重效率。从不同的角度来看,图2显示了本例中产生的设计Z(400)以及采样点的位置xkas,采样顺序k=1,400.我们观察到,算法首先进行探索,然后进入更具针对性的模式,在0左右的采样和r.x0之间交替。0.2 0.4 0.6 0.8 1.0比例0。16 0.1650 100 200 300 4000.0 0 0.2 0.4 0.6 0.8 1.0kx(k)●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●Y1样本Y2样本图2。左:设计Z(400)基于(3.2)的间隙表面标准。Yan和Yr分别有D(400)=294和D(400)=106个样本。右图:采样位置xka是k的函数(蓝色表示k=1,红色表示k=2)。EI标准的比较和讨论。作为比较的第一个基础,我们提供了三种非自适应设计。最简单的替代方法是统一抽样法,它特别依赖于大数定律来学习u`(x)。

26
大多数88 在职认证  发表于 2022-5-9 03:57:41
因此,在每个步骤k中,我们从x×L中生成一个新的样本集合(x,`)。这将生成一个大致相同数量的样本D(k)\'序列设计,用于从每个响应中对响应面15D(k)进行排序,以及一个在x中近似恒定的克里格方差δ`(x)。显然,这种方法产生了可能(经验)损失的上限。通过顺序设计实现的每一个可选空间的分离率;这改进了均匀采样,但没有以任何方式尝试在索引维度L中进行区分。对于本例,我们采用D=160=4与每个表面的观测噪声成比例。(请注意,该策略大致相当于使用采集函数Ek(x,`):=δ`(x)构建全局序列最大化设计。)第三种选择是建立一个依赖于真u`(·)的抽样方案。基于这一远见,我们生成了一个设计,该设计依赖于通过插入真实数据来解析C(x)的实际复杂性`(x) 进入(3.1)中的间隙UCB度量。因为采样完全取决于`(x) 克里格方差δ(k)`(x)由之前的x1:k,cf.(2.10)迭代确定,总体设计x1:Kis是确定性的(因此是非自适应的,但仍按顺序实施)。请注意,由此产生的bu`(·)以及由此输出的^C(·)仍然是Y1:K的函数。可以根据分类框架设计用于评估预期改进的其他几种备选方案。对于分类,主要的后验统计量是u`(x)的概率p`(x)是最小的响应。然后可以使用向量p(x)来测量x处产生的局部分类的复杂性。请注意,这种测量本质上是在`之间聚合的,因此只依赖于x。

27
能者818 在职认证  发表于 2022-5-9 03:57:44
这建议使用第3节中的两步取样程序。1.1或建立(3.1)中类似UCB的标准。我们采用后一种方法,将判别x位置的标准Γ(x)与UCB相结合(更大的分数优先),从而得出形式为Ek(x,`)=Γ(k)(x)+γkδ`(x)的EISCORE。Γ(·)有三种不同的选择:ΓENT(x):=-X`p`(X)log p`(X);ΓBvSB(x):=-[pBest(x)- pSB(x)];(4.3)最佳(x):=-pBest(x),(4.4),其中pBest(x):=P^C(x)=C(x)|Fk= p^C(x)是后验概率,即最低后验概率确实是最小响应,pSBis是第二最低后验概率,即最小响应。ΓENTmetric是后验熵,它是分类复杂性的标准度量。高熵表明~p(x)中的扩散更大,因此更不确定~u(x)中哪个分量最小。然而,熵的一个众所周知的缺点是,对于大L(大于3),不太可能是最小值的响应(即小p`(x))仍然强烈影响整体ΓENT(x),导致EI分数的非直观形状。源自[30]的最佳与次最佳(BvSB)方法ΓBvSB(x),通过比较两个最低的后验平均值来抵消这种影响。PBEST和PSB之间的微小差异表明,在确定最小响应时存在很大的不确定性。然而,如果后验差δ`(x)’高度不相等,则BvSB度量可能会崩溃,因此bu′和p′之间的顺序不相同。否则,ΓbVSB与间隙测量B非常相似(x) 。最后,ΓBest关注的是位置pBest(x) 1,即接近^C(x)分类边界的。当L=2时,Γbest和ΓBvSB=1- 2pBest(x)给出相同的偏好。注意,由于Γ不区分不同的表面,因此将γk=γk(`)作为响应特定值是明智的。

28
可人4 在职认证  发表于 2022-5-9 03:57:48
或者,Γ度量适合于并行采样,其中16 Ruimeng Hu和Michael Ludkovski在X中构建了一个自适应序列设计,但平等地对待所有曲面:EConc-Γk(x)=Γ(k)(x)+γk[x`δ`(x)]。(4.5)另一种选择是所谓的纯M-Gap启发式,它使用(3.2)viaxk+1=arg maxx∈T(k)M(x),`k+1=arg max`δ`(xk+1)。(4.6)这种分层抽样策略可被视为将[29]的高效全局优化(EGO)标准推广到排名问题,参见[24]中EGO的分类变量。表1一维示例中Z(200)的真实损失与经验损失。对于UCB启发法,冷却计划的形式为γk=c√用c记录k,如下所示。错误概率ErrP rob测量1的平均值- p(200)最佳(x)超过测试集。方法Emp损耗(SE)真损耗(SE)ErrProb(SE)DUniform采样2.89E-3(1.24E-4)2.64E-3(2.67E-4)6.87%(0.25%)100非自适应LHS 2.16E-3(1.01E-4)1.91E-3(2.12E-4)6.05%(0.22%)160已知间隙UCB,(1.91E-4)5.61%(0.23%)174.17%174.17%(0.15%)17172(2.33E-4)4.28%(0.15%)1717172并发M-Gap 1.36E-3(4.98E-5)4.36E-3(4.98E-5)5.98E-5)1.19E-3(1.19E-3(1.19E-3(1.9 E-3(1.84E-5)3(1.84E-5)3(1.84E-4)3(1.84E-4)3(1-4)3(1.84E-4)4)3(1.4)3(1.84E-4)3(1-4)4)4)3(1.4)3(1.4)3(1.4)3)3(1.4)3(1.4)3(1.84E-4)3)3 3(2.60E-4)5.46%(0.23%)163Gap UCB,5.16%(0.19)1.62E-3(2.14E-4)1.62E-3(7.29E-5)1.62E-3(2.14E-4)2.14E-4)5.10%(2.14 E-4)5.10%(2.14 E-4)5.10%(0.14 E-4)5.10%(0.20%)1760.10%(0.20)176UCB)176UCB差距UCB,c=1.10(5.10.10.10.10.10%(5.10.10.10.10.10)差距UCB(5.10.10.10.10)差距UCB、176B、176B、176B、176B、c=1.10(0.10.10.10.10.10(0.10.10.10.10.10.10.10.10)差距UCB)差距UCB、176B、176B、c=1.10(0.10.10.10 3(5.85E-5)1.35E-3(1.71E-4)4.53%(0.17%)172ΓEN T-UCB,c=5 1.14E-3(6.02E-5)1.33E-3(1.80E-4)4.22%(0.18%)169差距与培训K1。20E-3(5.87E-5)1.69E-3(3.24E-4)4.34%(0.37%)1464.3。基准。

29
kedemingshi 在职认证  发表于 2022-5-9 03:57:51
为了判断不同顺序设计的效率,我们继续对不同方法的性能进行基准测试。表1和图3比较了EI采集功能的性能,包括三种非自适应方法;南峡;Gap UCB具有不同的γk-时间表;方法基于后验概率p(·):基于(4.2)的ΓENT-UCB熵准则和基于(4.4)的ΓBest UCB准则;纯M-gap启发式(4.6);同时使用M-Gap进行采样。为了构建表1中的汇总统计数据,我们使用大小为K=10的随机LHS设计初始化了每个算法,并将其扩充到K=200个站点。自始至终,我们计算了已知u`(x)的合成示例中的真实损耗,以及近似的经验损耗ELEL(^C,C)=MMXj=1bu(1)(j)十)- m(j)十),(4.7)我们使用M=1000=1/x=0,1]中的x等距网格点。报告的另一个度量是错误概率1- p(K)Best(x),用于衡量排序响应面17的顺序设计确定的最小响应不正确的后验概率。每种方法运行100次,以计算损失函数L和经验损失EL的结果平均值和标准偏差。为了隔离EI标准的影响,我们继续使用固定的GP协方差结构K`表示u′s和预先指定的σ′(参见第4.1节中的超参数值)。Gap-SUR算法似乎是最有效的,尤其是比原始均匀采样器(或非自适应LHS采样器)更有效。它的性能也比Gap UCB或纯M-Gap方法更好,而且在整个算法运行中的波动最小,表明其行为更稳定。然而,UCB方法几乎同样优秀,尤其是基于熵的ΓENT-UCB方法具有竞争力。

30
能者818 在职认证  发表于 2022-5-9 03:57:54
然而,正如所讨论的,这些方法对γk计划的选择很敏感;表中显示,选择不当的γKC可能会严重恶化性能。在这个例子中,γ=c√对数k,缩放c=1效果良好,但如果c太小,则该方法过于激进,如果c太大,则采样基本上是空间填充。同时,Gap SUR的一个局限性是,在优化EI采集函数时,它需要知道噪声方差σ`(·)。也许令人惊讶的是,已知的Gap UCB策略输给了自适应方法。这是因为非自适应方法的经验误差实际上对观测样本Y1相当敏感:K可能会产生对u`(x)的错误估计和错误分类的C(x)。因此,在正确放置(x,`)1:Kon平均值的同时,已知的间隙UCB设计不允许自我校正,因此关于u`的错误信念可以持续很长时间,从而增加EL。相比之下,自适应算法将样本添加到观测结果表明(x) 它很小,提高了精度,降低了真实损失函数和经验损失函数。图3的左面板通过绘制(4.7)中四种代表性策略的近似经验损失EL(^C(k),C),将算法行为可视化为设计尺寸k的函数。所有方法似乎都遵循幂律(对数图上的线性行为),EL是k的函数,自适应方法的斜率严格大于非自适应方法。20 50 100 2005e-04 2e-03 1e-02Kempirial Lossuniform真实间隙-UCBGap-UCBGap-超均匀间隙-UCB最佳-UCB5e-06 5e-05 5e-04 5e-03LossGap-苏鲁尔缺口-UCB间隙-图3所示为带培训的苏尔。左:作为设计尺寸k函数的平均经验损失EL(^C(k))(对数标度)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-24 17:00