楼主: nandehutu2022
2270 41

[量化金融] 高斯过程和贝叶斯优化的金融应用 [推广有奖]

11
能者818 在职认证  发表于 2022-6-14 07:01:48
它们由多元高斯随机向量和协方差矩阵的Cholesky分解生成。图1:具有不同核函数的高斯过程的样本路径0.0 0.2 0.4 0.6 0.8 1.0输入-3.-2.-10123输出(a)KSE0.0 0.2 0.4 0.6 0.8 1.0输入-3.-2.-10123输出(b)KRQ0.0 0.2 0.4 0.6 0.8 1.0输入-3.-2.-10123输出(c)Kmater320.0 0.2 0.4 0.6 0.8 1.0输入-3.-2.-10123输出(d)kmaterne52在图2和图3中,我们考虑了一个由7个模式组成的训练集,这些模式是在没有来自基数正弦函数sinc(2x)的噪声的情况下测量的,我们报告了相应的后验分布^f(x?)对于两种不同的果仁。蓝色实线对应预测,而阴影区域显示预测的95%置信区间。我们注意到,平方指数核产生的插值方差(图2)低于Matern32核(图3),而两个核函数的外推方差相似。我们有X=P U,其中U~ N(0n,In),P是K(x,x)的Cholesky分解,使得P P |=K(x,x),K(x,x)是N×N协方差矩阵,x是范围上的一致向量[-1, 1].它等于后验标准差的±2倍。高斯过程和贝叶斯优化的金融应用图2:sinc(2x)的后验分布(KSEkernel)-2-1.5-1-0.5 0.0 0.5 1.0 1.5 2.0x1.500.750.00-0.75-1.50预测置信区间培训数据图3:sinc的后验分布(2x)(Kmater52核)-2-1.5-1-0.5 0.0 0.5 1.0 1.5 2.0x1.500.750.00-0.75-1.50PredictionConfidence intervalTraining dataFinancial高斯过程和贝叶斯优化的应用周期指数核在处理时间序列时,能够包含周期性影响非常有用。

12
能者818 在职认证  发表于 2022-6-14 07:01:51
一些协方差核表现出这种特性,如周期指数核(MacKay,1998):KPE(x,x)=σexp-dXj=1\'jsinπλjxj公司- xj公司其中,输入空间的每个维度都有一个周期λj。可以从其他核计算更多的周期核,例如Mat'ern类。实际上,它们可以从任何内核构建,对于这些内核,可以定期计算Gram矩阵(Durrande,2016)。备注4。由于内核可以以各种方式组合,我们通常会对将时间模式与空间模式分离感兴趣。如果一个观测值由一对(t,x)确定,其中x∈ RDT和t∈ R是时间指数,我们可以在整个空间时间上定义一个内核(Osborne et al.,2012):K((x,t),(x,t))=KTime(t,t)·KSpace(x,x),其中KTime是时间模式的核函数,KSpace是空间模式的核函数。光谱混合核Wilson和Adams(2013)介绍了一种新的基于傅里叶空间中高斯混合的核构造方法。为此,他们使用Bochner\'stheorem,该定理指出,定义在RDI上的实值函数k是平稳连续随机过程的协方差核,当且仅当它可以用以下方式表示:k(s)=ZRde2πiλ>su(dλ),其中u是Rd上的正有限度量。该定理建立了平稳协方差核与其傅里叶变换之间的等价性。它是经典一维谱分析在处理核函数而不是自协方差函数时的推广。实际上,谱密度函数fk(λ)是协方差核函数的傅里叶变换:fk(λ)=ZRdk(s)e-2πiλ>sd,其中协方差核函数是光谱密度函数fk(λ):k(s)=ZRdfk(λ)e2πiλ>sdλ的傅里叶逆变换。例如,SE核的光谱密度为高斯分布。

13
可人4 在职认证  发表于 2022-6-14 07:01:54
这导致Wilson andAdams(2013)考虑了光谱密度的高斯混合,以扩展SE核。让我们用平均向量(u,…,unm)和对角协方差矩阵(∑,…,∑nm)定义RDN上的nmGaussian密度的混合物。相应的密度函数g(x)定义为:g(x)=nmXm=1ωm(2π)d/2√det∑mexp-(十)- um)>∑-1m(x- um)(4) 例如,我们可以考虑几种资产的每日价格。它们验证K(x,x)=K(x- x) 。这就是为什么协方差核必须是平稳的。高斯过程和贝叶斯优化的金融应用,其中ωmis是mthGaussian分布的权重。在我们的例子中,我们对实值协方差函数感兴趣,这意味着我们用(g(x)+g替换g(x(-x) )。有趣的是,方程(4)的傅里叶逆变换在分析上是可处理的,由以下公式得出:kSM(s)=nmXm=1ωmcos2πs>um经验值-2πs>∑msWilson和Adams(2013)表明,光谱混合(SM)核可以恢复Usalkernels(平方指数、Mat'ern、有理二次)。另一个有趣的特性是,它可以学习负协方差,这在考虑均值回复过程和反向交易策略时至关重要。2.1.4超参数选择之前引入的协方差函数都有超参数,如长度标度∑=diag`, . . . , `d在平方指数核中,有理二次核中的幂α等。所有这些参数都影响GP模型如何拟合观测数据。这就是为什么他们的选择至关重要。它们可以事先固定,也可以我们对其进行估计。对于给定的模型,我们用θ表示模型的参数。通常选择参数的方法是最大化似然函数L(θ)=p(y |θ)。其基本思想是最大化样本数据y的概率。

14
大多数88 在职认证  发表于 2022-6-14 07:01:57
在高斯过程回归的情况下,θ=(θK,σε)由核函数的参数θKof和噪声的标准偏差σε组成。设z=f(x)为总成。我们有:p(y |θ)=Zp(y |θ,z)p(z |θ)dz在积分z的最新值并求解时,通常会最大化对数边际似然:^θ=arg maxθ`(θ),其中`(θ)=ln p(y |θ)。在高斯噪声的情况下,我们有Y~ Nn、 K(θK)+σεIn其中K(θK)表示依赖于核参数θK的核矩阵。它如下:`(θ)=-nln(2π)-自然对数K(θK)+σεIn-Y>K(θK)+σεIn-由于可以解析计算K(θK)的梯度,因此通常使用梯度下降或拟牛顿算法来解决该问题。然而,`(θ)并不总是凸的,可能会支持局部极大值(Duvenaud,2013)。让我们用周期核来说明超参数的ML估计。为此,我们使用了7个训练点。在图4中,我们报告了当x?范围从-3至+3。我们假设核函数的超参数σ=1、λ=2和`=1,而噪声的标准偏差σε设置为10-然后,我们用极大似然法估计参数θ=(σ,λ,`,σε)。我们得到σ=0.7657,λ=1.6506,σ`=0.7664和σε=2.46×10-图5给出了相应的后验分布。正如预期的那样,我们在ML估计后比之前更好地拟合了训练集。备注5。贝叶斯方法将先验分布置于超参数θ上,并边缘化θ上的后验GP分布。

15
可人4 在职认证  发表于 2022-6-14 07:02:00
然而,这不是分析性的。Wilson(2015)给出了正确的公式。高斯过程和贝叶斯优化的金融应用图4:边际似然最大化之前的后验分布-3.-2.-1 0 1 2 3x1.500.750.00-0.75-1.50预测置信区间培训数据图5:边际可能性最大化后的后验分布-3.-2.-1 0 1 2 3x1.500.750.00-0.75-1.50预测置信区间培训数据高斯过程和贝叶斯优化的金融应用可处理。我们还注意到,如果噪声是非高斯的,则GP的后验分布是难以处理的。这两种情况都需要使用蒙特卡罗方法,如Hamiltonianor混合蒙特卡罗(Neal,2011),如第36.2.1.5页附录A.4所述,分类高斯过程回归可以扩展到分类问题,其中输出是对应于分类指数的离散变量。例如,我们可以预测资产价格的变动:1表示正回报,0表示其他。在下文中,我们考虑二元分类的情况。为了在数据之前使用GP对两个类进行建模,一个类通常使用sigmoid函数g(x),例如逻辑函数logit(x)=(1+e-x)-输出y是这样的:Pr{y=1}=g(f(x)),其中f(x)是x上的GP。新输入x的预测分布?可以在潜在GP值上边缘化:p(z?| y,z)=Zp(z?| z)p(z | y)dz,其中z和z?分别表示随机变量f(x)和f(x?)。我们推断:Pr{y?=1 | y}=Zg(z?)p(z?| z)p(z | y)dz?dz(5),其中后验分布p(z | y)可以使用Bayes规则书写:p(z | y)=p(y | z)p(z)p(y),这里,p(z | z)是GP的常见后验分布。

16
可人4 在职认证  发表于 2022-6-14 07:02:03
然而,后验分布p(z | y)不容易计算,这就是为什么使用近似值来计算积分(5)。拉普拉斯近似和期望传播是两种流行的方法(Rasmussen和Williams,2006)。第一种方法使用围绕其最大值的二阶泰勒展开来近似后验概率分布,而第二种方法通过最小化Kullback-Leibler散度来近似不可收缩概率分布。2.2贝叶斯优化贝叶斯优化是一种黑盒优化方法,这意味着对目标函数f(x)的了解很少。通常,当函数的计算代价很高、其解析表达式无法访问或梯度向量不稳定时,贝叶斯优化非常有用。这就是许多复杂的机器学习问题的情况,人们希望优化超参数。例如,对于给定的一组超参数,很难计算深层神经网络体系结构的得分(因为训练模型本身可能需要很长时间),也不可能计算每个超参数的梯度向量。这意味着g(x)是[0,1]中的单调递增函数。高斯过程和贝叶斯优化的金融应用2.2.1一般原则我们感兴趣的是在某个有界集x上求f(x)的最大值。贝叶斯优化包括两部分:(1)“概率替代项”和(2)“获取函数”(或效用函数)。首先,我们为目标函数f(x)建立先验概率模型,然后用从f(x)提取的样本更新概率分布,得到后验概率分布。objectivefunction的这种近似称为代理模型。

17
可人4 在职认证  发表于 2022-6-14 07:02:05
高斯过程是贝叶斯优化的常用替代模型,因为GP后验仍然是多元正态分布。然后,我们使用基于此后验概率分布的效用函数来选择一个新点,以便在下一步评估目标函数。此实用程序函数称为请求函数。直觉上,我们考虑了开采和勘探之间的权衡。开发意味着在代理模型预测高目标的情况下进行抽样,而勘探意味着在预测不确定性较高的情况下进行抽样。因此,贝叶斯优化的总体思路包括以下步骤:1。将GP置于目标函数f(x)之前。2、使用所有可用样本更新f(x)上的GP后验概率分布。3、根据采集功能,确定下一次测量的位置。4、给出该测量值,更新GP后验概率分布。重复步骤2-4,直到获得目标函数f(x)的近似最大值(或在预定迭代次数后停止)。2.2.2采集函数我们假设函数f(x)具有高斯过程先验,我们观察到{(xi,yi)}ni=1形式的样本。我们有yi=f(xi)+εi其中εi~ N0, σε是噪声过程。我们用x和y表示矩阵(x,…,xn)和(y,…,yn)。如前所示,我们可以计算新观测值x?的后验概率分布f(x?| x,y)?,我们有:^fn(x?)~ N^mn(x?),^Kn(x?,x?)式中:^mn(x?)=K(x?,x)K(x,x)+σεIn-扬子:^Kn(x?,x?)=K(x?,x?)- K(x?,x)K(x,x)+σεIn-1K(x,x?)下标n表示^fn、^mn和^kn依赖于大小为n的样本,该样本对应于优化步骤n。我们注意到Dn,GP的增广数据:Dn=nxi,易,^fi(xi)oni=1Let Un(x?)是基于Dn的采集(或实用)功能。

18
可人4 在职认证  发表于 2022-6-14 07:02:08
贝叶斯优化包括找到新的最优点xn+1∈ X使得:xn+1=arg max Un(X?)更新观测值集和后验分布(见算法1)。存在其他模型,如随机森林(Hutter等人,2011)。高斯过程和贝叶斯优化算法的金融应用1贝叶斯优化算法目标是执行贝叶斯优化我们初始化数据样本和超参数向量θ,n=1,2。Do找到最佳值xn+1∈ 效用最大化问题的X:xn+1=arg max Un(X?)更新数据:Dn+1← Dn∪nxn+1,yn+1,^fn+1(xn+1)将核函数的超参数向量θn+1输出以返回dn,基于θn改进的采集函数使fn(κ?n)成为从f(x):κ?中提取的n个样本中的当前最佳值?n=arg maxκ∈xf(κ)κ在哪里?nis是在前n个步骤中最大化GP函数的点。我们希望选择下一个要评估的点xn+1,以提高该值。

19
能者818 在职认证  发表于 2022-6-14 07:02:11
我们确定了改进n(x?)具体如下:n(x?)=^fn(x?)- fn(κ?n)+= 最大值^fn(x?)- fn(κ?n),0库什纳(1964)提出的最直观的策略是选择一个最大化积极改善概率的点:Pr{n(x?)>0}=Prn^fn(x?)>fn(κ?n)o=PrN(0,1)>fn(κ?N)- ^mn(x?)q^Kn(x?,x?)= Φ^mn(x?)- fn(κ?n)q^Kn(x?,x?)由于改善的概率无法量化改善的水平,Moˇckus(1975)引入了一种替代采集函数,该函数考虑了改善的预期值(EI):EIn(x?)=E类[n(x?)]高斯过程和贝叶斯优化的金融应用在GP框架中,我们得到了预期改进获取函数的闭合形式:EIn(x?)=(^mn(x?)- fn(κ?n))Φ^mn(x?)- fn(κ?n)q^Kn(x?,x?)+q^Kn(x?,x?)φ^mn(x?)- fn(κ?n)q^Kn(x?,x?)因此,EIn(x?)其导数易于计算,我们可以使用拟牛顿法等优化算法来确定其最大值。这里,我们定义了两个效用函数Un(x?)=公关部{n(x?)>0}和Un(x?)=EIn(x?)这些都是很好的采集功能候选者。Jones et al.(1998)、Jones(2001)、Brochu et al.(2010)和Shahriari et al.(2016)研究了基于改进的获取函数的应用,而Bull(2011)研究了基于改进的优化的收敛性。第38页附录A.6将之前的结果扩展到最小化问题。备注6。通过考虑给定的阈值τ,可以推广前面的方法。在这种情况下,我们通过n(x?)=^fn(x?)- τ+.

20
何人来此 在职认证  发表于 2022-6-14 07:02:15
我们有:Pr{n(x?)>0} = Φ^mn(x?)- τq^Kn(x?,x?)和:EIn(x?)=(^mn(x?)- τ ) Φ^mn(x?)- τq^Kn(x?,x?)+q^Kn(x?,x?)φ^mn(x?)- τq^Kn(x?,x?)大多数情况下,阈值τ设置为fn(κ?n)+ξ,其中ξ>0。在图7中,我们使用以下最小化问题说明了基于改进的优化:min f(x)=(6x- 2) sin(12倍- 4) 目标函数f(x)如图6所示。在实践中,我们从初始设计开始,通常包括测量域的几个随机点。在图7的顶部/左侧面板中,我们从三个初始点开始算法。我们报告了GP分布的平均值(蓝色实线)和置信区间(蓝色阴影区域)。Wealso show the acquisition function Un(x?)=EIn(x?)(红色虚线)并用一条垂直的黑线指示建议的下一个位置,该黑线对应于最大值ofUn(x?)。顶部/右侧面板对应于我们更新示例的第二次迭代。事实上,样本现在包含最初的三个点和最大点x?在上一次迭代中获得。然后,我们继续这个过程,并在接下来的五个步骤中展示贝叶斯优化的结果。我们注意到,步骤n=3、n=4和n=5对应于勘探阶段(方差高的采样),而步骤n=1、n=2和n=6对应于开发阶段(改进高的采样)。最后,经过六次迭代,我们找到了最小值,因为采集函数等于零。见第37页附录A.5。该示例取自Forrester等人。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 12:31