楼主: 可人4
1607 35

[量化金融] 响应面排序的深度学习及其在优化中的应用 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-6-11 09:42:40
这就是所谓的神经网络训练,通常基于托卡斯特梯度下降法(如Adam[36,51],NADAM[16])。2.2深度学习算法在计算机视觉中,图像分割是将数字图像分割成多个片段的过程。图像中的每个像素将根据其所属的类别进行标记。训练数据由每个像素的RGB值及其所需标签组成。将响应面排序作为图像分割,则“图像”是整个输入空间X,而类标签是最小曲面的索引。X中的每个点都被视为我们的“像素”,每个“像素”的“颜色”就是位置的坐标。通过以上介绍的概念,我们在本小节中详细描述了深度学习算法,包括神经网络的输入、输出和结构。输入和输出。网络中输入和输出层的设计通常很简单。回想一下我们的问题(1.1),我们的目标是在某些位置x使用噪声采样数据Y`(x)来训练神经网络,以便在训练后,它可以通过最小曲面的索引高效准确地标记x中的每个位置x。网络输入为x1:J∈ RJ×dw其中j对应于点的数量,d是问题的维数。期望输出应采用以下形式:Cdl=(pj`),j=1,···,j,`=1,···,L,其中L是响应面数,pj`是“thsurface”在JTH点处最小的概率。这通常通过为输出层实现softmax激活功能来实现。例如,如果一个获得以下输出0.1 0.2 0.70.8 0.1 0.1,这意味着网络认为第三曲面在第一点的概率最小为70%,而第一曲面在第二点的概率最小为80%。

12
何人来此 在职认证  发表于 2022-6-11 09:42:44
对应点的PredictedLabel将通过获取矩阵的行argmax来给出,该矩阵以RJ为单位生成列向量。在上述示例中,输入包含两个点x和x,相应的标签为[3,1]+。在训练阶段,网络被告知输入x1:J的真实标签应该是什么,并通过最小化一些损失函数(参见(2.1))根据此信息调整其信念。在泛化阶段,只给出X中的位置,并使用网络输出作为最终结果。在这两个阶段中,准确度将根据正确预测的标签与地面真实度的百分比进行评估,结果称为训练准确度和泛化准确度。这也是损耗度量(1.3),统一度量λ(dx)=dx/| X |。当使用有噪声的数据进行训练时,地面真实情况未知,真实标签由我们掌握。也就是说,“true”标签是通过对每个`∈ L和takearg min\'Y`(x)。当然,这会导致标签错误,并影响培训和概括的准确性。在第3节中,我们对已知背景真实度的合成示例进行了数值研究,并研究了深度学习算法的准确性。图2:神经网络结构(NNs)。左:具有4个完全连接的隐藏层的前馈神经网络;右:两层UNet。在这里,致密块意味着一个完全连通的层。添加活动正则化器的目的是减少泛化误差,可能并不总是需要。“MaxPoolig2D”用于下采样,“串联”合并来自不同密集块的输出,这使架构看起来像一个“U”形。建筑学虽然神经网络输入/输出层的设计通常很简单,但为隐藏层找到一个好的体系结构可能非常复杂。

13
可人4 在职认证  发表于 2022-6-11 09:42:47
特别是,不太可能用一些简单的规则来总结中间层的设计策略,例如,如何权衡隐藏层的数量与网络训练所需的时间。网络的全局拓扑由块和块之间的交互组成,通常由元体系结构描述。设计适当的元体系结构可以提高网络的性能,在对响应面进行排序的情况下,将问题重新描述为图像分割将允许我们使用CNN【54】、UNet【52、29】和SegNet【3】的元体系结构,这已被视为并广泛用于图像分割的高效网络结构。由于没有严格讨论哪种体系结构最适合图像分割,因此本文将重点讨论两种体系结构:前馈NNs和图2中的UNet可视化。它们是使用Keras[15]构建的,Keras是一种高级神经网络API。主要区块完全连接(如图2所示)层和卷积层。第一个(左)由密集的块体组成。我们添加了一个“/”活动正则化器(显示为激活)来帮助减少泛化错误,这可能并不总是需要的。ReLu被选为隐藏层的激活功能,而sigmoid或softmax被选为输出层,具体取决于分类器的数量。在第二个(右)体系结构中,我们使用一个具有3×3内核的二维卷积层(shownas Conv2D)作为第一个隐藏层,它输出4D张量。它扩展了特征通道的数量,这有助于减少必要特征图的数量,从而提高计算效率[30,55]。“MaxPoolig2D”用于下采样,“Concatenate”合并不同密集块的输出,其中一个在下采样之前,另一个在上采样之后,以便它们的尺寸匹配。

14
何人来此 在职认证  发表于 2022-6-11 09:42:50
“串联”动作使架构具有“U”形。激活功能的选择与第一个架构中的相同。我们注意到,这种UNet结构可以应用于任何维度的问题,只需调整卷积层和下/上采样层的维度即可。我们还要提到,【4】中使用的神经网络是一种前馈神经网络,具有两个完全连接的隐藏层,它们实际利用的是神经网络通过简单函数的组合(通过叠加完全连接的层)逼近复杂关系的能力,以及通过其完善的内置随机梯度下降(SGD)解算器找到(子)优化器的能力,其收敛性已在文献中研究过(例如,[32])。虽然通过将最佳停止问题重新描述为图像分割,人们可以使用一类更广泛、结构更精细的神经网络(如UNet),但其收敛理论尚不清楚。3数值实验在本节中,我们首先通过研究[33]中使用的一维和二维示例来分析深度学习算法(前馈和UNet)的性能,并系统地分析深度学习算法对uniformor通过顺序设计抽样生成的输入数据的依赖性。我们还提供了一个十维示例,以展示深度学习算法的鲁棒性,其中非学习算法通常具有很高的计算时间。作为一致性,我们将使用与【33,第4节】中相同的符号。3.1一维示例我们考虑的是【33】中使用的一维玩具模型,源于【53,第4.4节】。

15
nandehutu2022 在职认证  发表于 2022-6-11 09:42:53
LetL=2,X=[0,1]in(1.1),并确定噪声响应Y(X)和Y(X)asY(X)=u(X)+(十)≡sin(10x)1+x+2xcos(5x)+0.841+ σ(x)Z,Y(x)=u(x)+(十)≡ 0.5+σ(x)Z,其中Z`是独立的标准高斯,噪声强度固定在σ(x)≡ 0.2和σ(x)≡ 0.1,x为均质,但`=1,2为非均质。我们在X上的损失函数中取均匀权重λ(dx)=dx,它被解释为错误标记位置的百分比。图3:一维示例的真实响应曲面u和u以及相应的等级C。整个输入空间[0,1]分为三个部分,中间的等级等于1,否则等于2。然后计算真实排名等级C(x)为asC(x)=x为2∈ [0,r]∪ [r,1],r<x<r时为1,其中r≈ 0.3193,r≈ 0.9279. 我们在图3中可视化了真实响应u和u以及相应的链接分类C。我们首先研究前馈神经网络的性能,并针对以下四种情况对其进行测试:在均匀网格上生成的训练数据或顺序设计生成的点。表1:(x,z(x))的不同设计总结生成x的方法名称方法∈ 生成标签的X方法UNIF uniform grids True label arg min\'u`(X)UNIF+NL uniform grids Noised label arg min\'y`(X)SD sequential design True label arg min\'u`(X)SD+NL sequential design Noised label arg min\'y`(X)设M为训练数据的大小。为了进行全面的研究,我们在不同的M=128、256、512下进行实验。顺序设计产生的点使用【33】中开发的“Gap-SUR”方法,主要集中在边界附近Ci,即randr周围,以及“假”边界x=0,其中两条线非常接近,但彼此不接触。

16
nandehutu2022 在职认证  发表于 2022-6-11 09:42:56
然后,通过在x1:M处取真实曲面u`的argmin或噪声采样器y的实现y `来生成标签。为了关注表1中数据设计的性能,我们将网络架构定义为具有两个完全连接的隐藏层的前馈神经网络。每个隐藏层中的神经元数量设置为M/8。对于这个二元分类问题,输出层包含一个神经元,通过使用sigmoidactivation函数,产生表面1为其认为的最小值的概率。该网络经过1500个时代的训练,使用m/2数据更新每个梯度。一个历元是对整个数据的迭代。我们注意到,上述所有设置都可以更改,以便在准确性和效率之间进行适当的权衡。然而,为了进行比较,我们按照上面解释的方式对其进行了定义。同时,我们在优化器中调整学习率和其他参数,以便在1500个周期内更好地训练网络。在深度学习中,两个数字是最重要的,即训练精度和泛化精度。第一个指标表示网络从基于M个点计算的训练数据集中学习的程度,而后一个指标则衡量新位置x预测的准确性/∈ x1:M,在X上的内网格上计算。另外,请注意,后一个是1的离散化版本- L(C,Cdl),其中L是(1.3)中使用统一度量定义的损失。出于这两个原因,我们在表2中报告了不同计算预算M=128、256、512和表1中列出的不同设计的准确度,而不是损失。表2:具有不同计算预算M的一维示例的训练精度与泛化精度。使用的首字母缩略词是:UNIF=X上的统一网格,SD=Gap SURin生成的网格【33】,NL=带噪标签的训练。方法/预算M=128 M=256 M=512训练。Acc.一般Acc。

17
mingdashike22 在职认证  发表于 2022-6-11 09:42:59
火车Acc.Gen.Acc.列车。Acc.Gen.Acc.UNIF 99.9%99.7%99.9%99.9%99.9%UNIF+NL 81.25%98.5%79.3%98.8%81.0%99.5%SD 99.5%98.3%96.1%98.9%98.1%99.5%SD+NL 64.1%97.3%57.2%92.3%58.2%94.2%。这是因为,泛化精度是在干净的数据上测试的,而在训练数据集中使用NoisyLabel会降低训练的“精度”,通过比较UNIF-toUNIF和NL可以证明这一点。事实上,当训练数据集中存在错误时,神经网络会自动检测这些错误并避免从中学习。经过仔细检查,由于低信噪比,训练数据集中的错误分类位置主要是错误标记的点,边界周围的点数量很少,这些点原本很难学习。这可以理解为,尽管带有噪声标签的训练数据不包含100%准确的信息,但网络通过不正确地训练来“学习”以最小化错误标签的影响。其次,通过比较UNIF+NL和SD+NL,我们观察到SD的使用进一步降低了训练精度。这是因为SD的输入数据包含更多错误,因为SD生成的点x1:M大多集中在边界r=0.3193、r=0.9279和伪边界x=0周围,其中信噪比较低,导致大量错误标记点。第三,我们观察到,训练数据中的误差比例存在一个阈值,以便能够自动检测,并且不会影响网络的预测精度。例如,与M=256时的SD和SD+NL相比,泛化精度显著降低。

18
mingdashike22 在职认证  发表于 2022-6-11 09:43:02
我们将这种现象解释为,有足够多的错误标签让网络相信他们(错误的标签)是真实的。最后,我们指出,随着训练数据集模拟预算的增加,UNIF情况下的结果更好,这符合常识:数据越多,学习越好。而在SD情况下,训练和泛化精度都有一个转折点,即64.1%→ 57.2% → 58.2%和97.3%→ 92.3% → 94.2%. 这是因为我们使用的Gap-SUR标准,其中x1:Mare通过减少逐步不确定性顺序选择。当我们自适应地增长x1:M时,算法将首先拾取边界周围的点。从M=128到M=256的额外预算主要用于边界点,这增加了错误标签的百分比,导致准确性下降。一旦这些点达到饱和(不确定性减少变得非常小),Gap-SUR会倾向于具有较大后验方差的位置,通常是Ci。因此,在M=512的情况下,额外的256个点比边界点更多地指向内部点,从而提高了精度。下面,我们还在图4中绘制了训练和泛化精度与历元的关系。图5给出了使用M=128个训练数据的UNIF、UNIF+NL、SD和SD+NL的预测排名分类以及与真实值的相应差异。图4:一维示例中UNIF、UNIF+NL、SD、SD+NL的训练和泛化精度与历元的关系。人们还可以注意到,在图5中,网络预测的分类错误,不仅在边界附近,而且在两个响应面相互靠近的“假”边界x=0处。

19
大多数88 在职认证  发表于 2022-6-11 09:43:05
这是因为,SD生成的训练数据点通常靠近边界或“假”边界,使用噪声标签将导致边界或“假”边界附近的点具有错误的分类,这使得网络在这些地方预测错误的分类。3.2二维示例在本小节中,我们通过【33】中使用的二维(2D)示例进一步研究了深度学习算法对噪声标签、采样位置和预算的敏感性。它处理L=5个曲面和2D输入空间X=[-2,2],具有恒定的观测噪声`(x,x)~ N(0,σ`),σ`=0.5,` = 1, · · · , 5. 图6显示了问题(1.1)的每个表面和真实类别C的特定响应函数。(a) UNIF(b)UNIF+NL(c)SD(d)SD+NL图5:预测的c类(x)(蓝色)以及与真实c类(x)的相应差异-^C(x)(红色)由UNIF、UNIF+NL、SD、SD+NL使用大小为M=128的一维示例训练数据。错误预测的分类在第二行的子图中标记为“x”。表面响应u(x,x)2- x个- 0.5xu(x,x)2(x- 1) +2倍- 2u(x,x)2 sin(2x)+2u(x,x)8(x- 1) +8倍- 3u(x,x)0.5(x+3)+16x- 6图6:左:每个表面的特定响应函数;右图:二维示例的真正排名分类器,该示例划分了整个输入空间[-2, 2] × [-2,2]分为六部分。表3:不同计算预算M的二维示例的训练精度与泛化精度。使用的首字母缩略词是:UNIF=X上的统一网格,SD=Gap SURin[33]生成的网格,NL=带噪音标签的训练。方法/预算M=256 M=576 M=1024Train。Acc.Gen.Acc.列车。Acc.Gen.Acc.列车。Acc.Gen。

20
能者818 在职认证  发表于 2022-6-11 09:43:08
根据UNIF 99.9%94.7%99.7%96.6%99.5%97.7%UNIF+NL 98.4%92.8%93.2%95.1%90.8%96%SD 96.9%94.4%96.1%96.4%96.1%97.4%SD+NL 82.0%94.1%71.8%94.6%66.8%96.8%,我们执行与1D示例中相同的四种类型的训练数据(参见表1),并在表3中显示精度结果。我们还在图7中绘制了训练和泛化精度Versus历元。图9给出了使用M=576训练数据的UNIF、UNIF+NL、SD和SD+NL的预测排名分类以及与真实值的相应差异。这些测试结果与1D示例一致,即泛化精度对训练数据集中的噪声不是很敏感;将SD用于图7:二维示例中UNIF、UNIF+NL、SD、SD+NL的训练和泛化精度与历元的关系。由于学习数据集中的错误更多,生成采样位置x1:M可能会降低训练精度,增加预算M将使其在边界周围的点饱和之前更低。据我们所知,文献中没有理论结果表明哪种类型的体系结构最适合特定应用。相反,人们通常实现几个NNs架构,并根据经验选择其中最好的。请注意,将rankingresponse surfaces视为图像分割允许使用广泛的深层神经网络。在本例中,我们使用M=576个带噪声标签的均匀网格点来实现UNet架构(图2中的右面板),并在图8中显示预测的分类。UNETHA的泛化精度为96.44%,表现出比前馈NNs更好的性能(对应于表3中的95.1%),且训练时间相当。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-26 16:43