楼主: 何人来此
882 45

[量化金融] 响应面排序的序贯设计 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
64.8012
学术水平
1 点
热心指数
6 点
信用等级
0 点
经验
24593 点
帖子
4128
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
何人来此 在职认证  发表于 2022-5-9 03:56:14 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Sequential Design for Ranking Response Surfaces》
---
作者:
Ruimeng Hu and Mike Ludkovski
---
最新提交年份:
2016
---
英文摘要:
  We propose and analyze sequential design methods for the problem of ranking several response surfaces. Namely, given $L \\ge 2$ response surfaces over a continuous input space $\\cal X$, the aim is to efficiently find the index of the minimal response across the entire $\\cal X$. The response surfaces are not known and have to be noisily sampled one-at-a-time. This setting is motivated by stochastic control applications and requires joint experimental design both in space and response-index dimensions. To generate sequential design heuristics we investigate stepwise uncertainty reduction approaches, as well as sampling based on posterior classification complexity. We also make connections between our continuous-input formulation and the discrete framework of pure regret in multi-armed bandits. To model the response surfaces we utilize kriging surrogates. Several numerical examples using both synthetic data and an epidemics control problem are provided to illustrate our approach and the efficacy of respective adaptive designs.
---
中文摘要:
针对多个响应面排序问题,提出并分析了序贯设计方法。也就是说,给定连续输入空间$\\cal X$上的$L\\ge 2$响应曲面,目的是高效地找到整个$\\cal X$上最小响应的索引。响应面未知,必须一次一个地进行噪音采样。这种设置受随机控制应用的驱动,需要在空间和响应指数维度上进行联合实验设计。为了生成序贯设计启发式,我们研究了逐步减少不确定性的方法,以及基于后验分类复杂性的抽样。我们还将我们的连续输入公式与多武装匪徒中纯粹后悔的离散框架联系起来。为了对响应面建模,我们使用克里格替代项。文中给出了几个使用合成数据和流行病控制问题的数值例子,以说明我们的方法和各自自适应设计的有效性。
---
分类信息:

一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--
一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Statistics        统计学
二级分类:Computation        计算
分类描述:Algorithms, Simulation, Visualization
算法、模拟、可视化
--

---
PDF下载:
--> Sequential_Design_for_Ranking_Response_Surfaces.pdf (2.74 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:响应面 Applications Experimental Quantitative Computation

沙发
大多数88 在职认证  发表于 2022-5-9 03:56:20
排序反应面的序贯设计Hu和Mike Ludkovski*摘要受随机控制应用中最优反馈策略映射估计问题的启发,我们提出并分析了排序多个响应面的顺序设计方法。也就是说,吉文尔≥ 2连续输入空间X上的响应面,目的是高效地找到整个X上最小响应的指数。响应面未知,必须一次一个地进行噪声采样,需要在空间和响应指数维度上进行联合实验设计。为了生成序贯设计启发法,我们研究了贝叶斯逐步减少不确定性的方法,以及基于后验分类复杂性的抽样。我们还将我们的连续输入公式与多武装匪徒中纯粹后悔的离散框架联系起来。为了对响应面建模,我们使用克里格元模型。文中给出了几个使用合成数据和流行病控制问题的数值例子,以说明我们的方法和相应自适应设计的有效性。关键词。序贯设计、响应面建模、随机克里格法、序贯不确定性减少、预期改进1。介绍随机控制问题的一个核心步骤是估计用于逼近最优反馈控制的预期成本。在这个问题的模拟方法中,通过生成随机系统的轨迹来抽样成本,然后根据当前系统状态进行回归。最终对产生的Q值进行排序,以找到将预期成本降至最低的行动。当模拟成本很高时,计算效率和实验设计就变得很重要。

藤椅
能者818 在职认证  发表于 2022-5-9 03:56:23
顺序策略将学习成本重新表述为另一个动态计划,其行动与抽样决策相对应。在这篇文章中,我们探讨了这个顺序设计问题的贝叶斯公式。排名目标采用了一种新的损失函数,它混合了分类和回归标准。此外,由于存在多个随机采样器(每个可能的动作一个采样器)和一个连续的输入空间,有必要开发有针对性的响应面方法。特别是,一项重大创新是并行建模每个Q值内的空间相关性,同时利用多臂bandit透视图选择下一个要调用的采样器。为了获得Q值的可处理近似值,我们提倡使用高斯过程元模型,将潜在响应面视为高斯随机场的实现。因此,排名标准是根据eachQ值的后验不确定性制定的。因此,我们将元模型的不确定性与抽样决策联系起来,类似于排序和选择的离散框架以及多武装强盗。我们的工作在随机模拟器的仿真和随机控制之间建立了新的联系,提供了一类新的近似动态规划算法。1.1. 抽象排序问题。让u`:X→ R、 `∈ L≡ {1,2,…,L}be L光滑函数在Rd的子集X上。我们对学习加州大学圣巴巴拉分校统计与应用概率系93106的最终排名问题感兴趣-3110hu@pstat.ucsb.edu,ludkovski@pstat.ucsb.edu.NSF ATD-1222262.2 Ruimeng Hu和Michael Ludkovski在输入空间X上部分支持的工作,即查找分类器(1.1)C(X):=arg min`{u`(X)}∈ L.函数u`是先验未知的,但可以进行噪声采样。

板凳
nandehutu2022 在职认证  发表于 2022-5-9 03:56:27
这适用于任何x∈ 十、 `∈ Lwe可以访问模拟器Y`(x),该模拟器生成u`(x)的估计值:(1.2)Y`(x)=u`(x)+`(x) ,`∈ 我在这里`是方差为σ`(x)的独立平均零随机变量。直观地说,我们在X上有L个光滑的超曲面,可以通过蒙特卡罗采样。在dynamicprogramming上下文中,x是系统状态,`为控制器可用的各种操作编制索引,u`(·)代表执行和执行的预期成本`(·)捕获从底层随机系统的路径模拟中产生的模拟噪声和相应的成本。我们的目标是在整个输入空间中全局确定最小曲面。更准确地说,我们试图在每个x上赋值∈ X a标签^C(X),同时优化损失度量(1.3)L(^C,C):=ZXn^C(X)(X)- (dx)的uC(x)(x),其中F(·)是x上的一个特定权重函数,确定不同区域的相对重要性。因此,如果排名正确^C(x)=C(x),则损失为零,否则与所选响应与真实最小^C之间的(正)差异成正比- uC.上述标准旨在确定最佳行动`*(十)≡ C(x)在x国采取行动;如果选择了错误的动作^C(x),则(1.3)会捕获控制器的综合损失,假设潜在状态x的概率分布F(·)。在(1.3)中,损失函数混合了回归和分类目标。在回归中,我们试图用与单个表面u`(·)相关的损失函数来略微估计响应。相反,(1.3)只是关于正确识别最小响应的指数。因此,只要最小响应不变,就可以容忍较小的估计误差,从而导致损失函数中的阈值行为。

报纸
大多数88 在职认证  发表于 2022-5-9 03:56:30
在分类中,损失函数是离散的(通常带有固定的误分类惩罚),而(1.3)将损失与误分类距离C(x)(x)成比例-uC(x)(x)。另一个关键区别是,在分类中,采样空间仅为X(返回一个嘈杂的标签C(X)∈ 五十) ,而在我们的上下文中,采样查询由位置索引对(x,`)组成∈ X×L,一次采样一个响应。我们需要分析样本的数量,而我们需要分析样本的数量。由于u`(·)是未知的,我们将(1.3)定义为一个贝叶斯顺序学习问题,即自适应地增长一个设计Z,从而快速学习C(x)。经典的静态设计,即与响应无关的设计,不足以进行排名,因为优化计算效果的整体本质是基于对未知u′s结构的学习,学习表现为通过在输入空间X(集中在难以识别C(X)的区域)和采样指数L(集中在u′可能是最小响应的表面)中进行区分来聚焦采样。由于联合设计空间X×L,我们的问题允许双重解释。修正“,(1.1)是关于重建未知响应面x7→ u`(x)通过嘈杂的样本。排序响应面3的顺序设计将不同的响应面聚合在一起,X上的顺序设计减少到识别X=∪Li=1Ciinto集合ci:={x:C(x)=i}={x:uC(x)(x)=min`u`(x)=ui(x)},i=1,L.(1.4)因为在分区的内部,等级C(x)更容易识别,主要问题是确定分区边界Ci。

地板
能者818 在职认证  发表于 2022-5-9 03:56:33
因此,(1.1)与轮廓查找相关,在[22,42,43]中对其进行了顺序设计研究。标准等高线查找尝试识别响应面的水平集{u(x)=a},对应于L=2,已知u(x)=a在(1.1)中。因此,本文的分析可以被视为轮廓查找的多变量扩展。在内部,轮廓查找概括了将噪声响应最小化的经典目标,与模拟优化中的预期改进/信息增益权衡相关联。特别是,我们重新制定了[14,36]中的主动学习规则。相反,确定最小响应arg min`u`(x)的目标x对应于多武装匪徒(MAB)的设置。土匪有L个手臂和相应的报酬∈ 五十、 决策理论目标(1.1)称为纯勘探问题[7,8]。对哪些arm进行拉动的决策政策通常以后验均值和对各自支付的信心来表示;这种观点促使我们使用差距上限(UCB)设计策略[4,46]。与本文献相比,(1.3)包含两个关键差异。首先,损失函数是一个加权纯后悔标准,据我们所知,它从未在MAB环境中使用过。第二,我们不是一个拥有独立武器的土匪,而是将其从根本上扩展到一个由x索引的土匪连续体∈ X.最近,[26,17]考虑了多个强盗,它们可以被视为(1.1),具有离散的、非度量的X。我们将它们的设置概括为连续的X,具有手臂的空间相关结构。1.2. 方法概述。要处理连续状态空间x∈ 对于随机控制中出现的X,我们采用克里格或高斯过程(GP)回归的框架来建模Q值。

7
kedemingshi 在职认证  发表于 2022-5-9 03:56:36
在实验设计(DoE)和连续MAB两种情况下,克里格模型可能是最流行的框架[47]。特别是,克立格法已被广泛用于序列回归设计,因为它允许一种直观的方法在样本间借用信息,以建立整个响应面的全局估计。另外两个优势是高斯过程的分析结构,允许对许多预期的改进标准进行分析评估,以及在需要插值数据的确定性(无噪声)实验建模和额外需要数据平滑的随机模拟器之间自然过渡的能力。更一般地说,我们建议从贝叶斯的角度进行全局排序,将响应曲面视为在给定函数空间中取值的随机变量的实现。这提供了后验元模型不确定性的可处理量化,以及用于确定最小曲面的相关顺序度量。因此,我们强调克里格法对我们算法的实现不是必不可少的;例如,在基于树的模型中可以找到有竞争力的替代方案,如动态树[25]和贝叶斯树[12]。此外,虽然经典克里格法对于一些具有挑战性的问题可能不够灵活,但现在已经有了一些成熟的推广,包括树状GPs[24]、本地GPs[20]和基于粒子的GPs[23],所有这些都通过公共R包提供了货架使用。根据高效的全局优化方法[29],我们确定了预期的改进原因,将排名问题的局部复杂性与我们估计的后验方差4 Ruimeng Hu和Michael Ludkovski结合在一起。

8
kedemingshi 在职认证  发表于 2022-5-9 03:56:39
特别是,我们依赖后验方差的预期减少,并借鉴了[41,10]中基于GP回归的逐步不确定性减少标准。我们还研究了UCB型启发法[4]来权衡勘探和开发目标。基于上述想法,我们获得了一些完全顺序的程序,这些程序专门针对在整个设计空间X上高效学习C(·)。我们进行了大量的数值实验,以比较这些建议,并确定最有希望的解决方案。如前所述,我们的算法是由勘探开发范式驱动的,该范式量化了C(x)的(经验估计的)局部排名复杂度和对估计的^C的信心。为了量化局部排名复杂度,我们使用了差距(x) [17,9,28]。对于任何x∈ 十、 用u(1)(X)<u(2)(X)<…<表示u(L)(x)在x和(x) :=u(1)(x)- u(2)(x)最佳(最小)和次优响应之间的差距。(x) 测量确定C(x)的难度:对于u(1)的位置- u(2)很大,我们不需要高精度,因为相应的最小响应面很容易识别;相反,对于u(1)的位置-u(2)很小,我们需要更高的精度。因此,我们希望在以下情况下优先取样:(x) 它很小。这是通过基于估计的gapsb的实验设计决策来实现的(x) 。在L上的设计方面,exploration建议将预算用于学习能够获得最大信息收益的响应。也就是说,通过将注意力集中在(两)个最有希望的表面u(1)和u(2)上,区分采样指数,可以获得巨大的好处。这种策略比对每个Y\'进行简单的相等采样要有效得多。此外,由于Y\'中的噪声级可能随`而变化,因此也必须考虑到这一点。

9
可人4 在职认证  发表于 2022-5-9 03:56:43
总之,我们的预期改进指标融合了经验差距B 以及基于克里格方差δ`(x)的经验后验不确定性,共同区分x×L。我们的贡献可以沿着三个方向追踪。首先,我们介绍并分析了一个针对损失函数(1.3)的新颖的序列设计问题。这种设置的动机是动态编程算法,自20世纪90年代末以来,统计响应模型已被广泛应用[15,33]。在这里,我们提出了一个贝叶斯顺序设计框架,可以节省大量的计算量,从而为这篇文献做出贡献。在复杂的模型中,这一方面变得尤为重要,因为模拟成本高昂,并形成了主要的计算瓶颈。其次,我们将贝叶斯优化和轮廓搜索的现有文献推广到多曲面设置,这就需要构建新的EI度量,以解决空间和索引维度上的联合设计问题。我们证明,这可以实现效率的双重提高:inX和L。第三,我们将[17]中的多匪徒问题扩展到了匪徒连续体的情况,这需要为各自的武器支付建立一个完整的元模型。我们的构建提供了一个替代最近关于X武装匪徒的工作[8],并为MAB和DoE之间的联系开辟了新的前景。我们的方法还推广了Gramacy和Ludkovski[22]。后一项工作提出了轮廓查找情况下的顺序设计,其中设计仅在输入空间X上进行。在此背景下[22]介绍了几种EI启发法,并建议使用动态树进行响应建模。然而,本文的框架需要一种相当不同的方法,特别是我们强调了多个响应面同时建模时产生的受bandit启发的工具(如UCB)。论文的其余部分组织如下。

10
能者818 在职认证  发表于 2022-5-9 03:56:46
第2节描述了我们采用的用于排序响应曲面5的克里格响应曲面序列设计方法,以及一些有助于排序的分析公式。第3节接着发展了(1.1)的预期改进启发法。第4节和第5节分别说明了使用合成数据(已知基本事实)和流行病管理的案例研究设计的算法。最后,第6节得出结论。1.3. 与随机控制的联系。考虑与受控状态过程X,c(0;u0:T)=TXt=0g(T,Xt,ut)(1.5)在{0,1,…,T}上相关的总成本最小化的目标。上面的g(t,x,u)编码了阶段运行成本,u0:是在有限行动空间中取值的控制策略∈ 五十、 和Xt≡ 具有状态空间X的随机离散时间马尔可夫状态过程 对于某些映射F:X×L×R,Xuare的动力学形式为xut+1=F(Xt,ut,ξt+1)→ 十、 式中,ξt+1是一个随机的独立中心噪声源。绩效标准优化了预期奖励,这些奖励在价值函数V(0,x),V(t,x):=input:t中得到∈UE[c(t;ut:t)|Xt=x],t∈ {0,1,…,T},x∈ 十、 所有可容许的闭环马尔可夫策略ut:T∈ 因此,在时间t,动作ut≡u(t,Xt)在反馈形式中被指定为当前状态Xt的函数。政策地图(t,x)7→U*(t,x)将系统状态转换为动作,并通过动态编程方程(DPE)与值函数相关:V(t,x)=minu∈Lg(t,x,u)+EtV(t+1,Xut+1)(十)= uu*(x;t),(1.6)与uu(x;t):=g(t,x,u)+Et[V(t+1,Xut+1)](x)。(1.7)符号Et[·](x)≡ E[·| Xt=x]旨在强调基于系统状态Xt=x总结的时间t信息的随机未来att+1的平均值。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-24 12:49