响应面排序的深度学习及其在优化中的应用 - 第2页 - 外文文献专区

11楼

发表于 2022-6-11 09:42:40

这就是所谓的神经网络训练，通常基于托卡斯特梯度下降法（如Adam[36，51]，NADAM[16]）。2.2深度学习算法在计算机视觉中，图像分割是将数字图像分割成多个片段的过程。图像中的每个像素将根据其所属的类别进行标记。训练数据由每个像素的RGB值及其所需标签组成。将响应面排序作为图像分割，则“图像”是整个输入空间X，而类标签是最小曲面的索引。X中的每个点都被视为我们的“像素”，每个“像素”的“颜色”就是位置的坐标。通过以上介绍的概念，我们在本小节中详细描述了深度学习算法，包括神经网络的输入、输出和结构。输入和输出。网络中输入和输出层的设计通常很简单。回想一下我们的问题（1.1），我们的目标是在某些位置x使用噪声采样数据Y`（x）来训练神经网络，以便在训练后，它可以通过最小曲面的索引高效准确地标记x中的每个位置x。网络输入为x1:J∈ RJ×dw其中j对应于点的数量，d是问题的维数。期望输出应采用以下形式：Cdl=（pj`），j=1，···，j，`=1，···，L，其中L是响应面数，pj`是“thsurface”在JTH点处最小的概率。这通常通过为输出层实现softmax激活功能来实现。例如，如果一个获得以下输出0.1 0.2 0.70.8 0.1 0.1,这意味着网络认为第三曲面在第一点的概率最小为70%，而第一曲面在第二点的概率最小为80%。

12楼

何人来此

发表于 2022-6-11 09:42:44

对应点的PredictedLabel将通过获取矩阵的行argmax来给出，该矩阵以RJ为单位生成列向量。在上述示例中，输入包含两个点x和x，相应的标签为[3，1]+。在训练阶段，网络被告知输入x1:J的真实标签应该是什么，并通过最小化一些损失函数（参见（2.1））根据此信息调整其信念。在泛化阶段，只给出X中的位置，并使用网络输出作为最终结果。在这两个阶段中，准确度将根据正确预测的标签与地面真实度的百分比进行评估，结果称为训练准确度和泛化准确度。这也是损耗度量（1.3），统一度量λ（dx）=dx/| X |。当使用有噪声的数据进行训练时，地面真实情况未知，真实标签由我们掌握。也就是说，“true”标签是通过对每个`∈ L和takearg min\'Y`（x）。当然，这会导致标签错误，并影响培训和概括的准确性。在第3节中，我们对已知背景真实度的合成示例进行了数值研究，并研究了深度学习算法的准确性。图2：神经网络结构（NNs）。左：具有4个完全连接的隐藏层的前馈神经网络；右：两层UNet。在这里，致密块意味着一个完全连通的层。添加活动正则化器的目的是减少泛化误差，可能并不总是需要。“MaxPoolig2D”用于下采样，“串联”合并来自不同密集块的输出，这使架构看起来像一个“U”形。建筑学虽然神经网络输入/输出层的设计通常很简单，但为隐藏层找到一个好的体系结构可能非常复杂。

13楼

可人4

发表于 2022-6-11 09:42:47

特别是，不太可能用一些简单的规则来总结中间层的设计策略，例如，如何权衡隐藏层的数量与网络训练所需的时间。网络的全局拓扑由块和块之间的交互组成，通常由元体系结构描述。设计适当的元体系结构可以提高网络的性能，在对响应面进行排序的情况下，将问题重新描述为图像分割将允许我们使用CNN【54】、UNet【52、29】和SegNet【3】的元体系结构，这已被视为并广泛用于图像分割的高效网络结构。由于没有严格讨论哪种体系结构最适合图像分割，因此本文将重点讨论两种体系结构：前馈NNs和图2中的UNet可视化。它们是使用Keras[15]构建的，Keras是一种高级神经网络API。主要区块完全连接（如图2所示）层和卷积层。第一个（左）由密集的块体组成。我们添加了一个“/”活动正则化器（显示为激活）来帮助减少泛化错误，这可能并不总是需要的。ReLu被选为隐藏层的激活功能，而sigmoid或softmax被选为输出层，具体取决于分类器的数量。在第二个（右）体系结构中，我们使用一个具有3×3内核的二维卷积层（shownas Conv2D）作为第一个隐藏层，它输出4D张量。它扩展了特征通道的数量，这有助于减少必要特征图的数量，从而提高计算效率[30，55]。“MaxPoolig2D”用于下采样，“Concatenate”合并不同密集块的输出，其中一个在下采样之前，另一个在上采样之后，以便它们的尺寸匹配。

14楼

何人来此

发表于 2022-6-11 09:42:50

“串联”动作使架构具有“U”形。激活功能的选择与第一个架构中的相同。我们注意到，这种UNet结构可以应用于任何维度的问题，只需调整卷积层和下/上采样层的维度即可。我们还要提到，【4】中使用的神经网络是一种前馈神经网络，具有两个完全连接的隐藏层，它们实际利用的是神经网络通过简单函数的组合（通过叠加完全连接的层）逼近复杂关系的能力，以及通过其完善的内置随机梯度下降（SGD）解算器找到（子）优化器的能力，其收敛性已在文献中研究过（例如，[32]）。虽然通过将最佳停止问题重新描述为图像分割，人们可以使用一类更广泛、结构更精细的神经网络（如UNet），但其收敛理论尚不清楚。3数值实验在本节中，我们首先通过研究[33]中使用的一维和二维示例来分析深度学习算法（前馈和UNet）的性能，并系统地分析深度学习算法对uniformor通过顺序设计抽样生成的输入数据的依赖性。我们还提供了一个十维示例，以展示深度学习算法的鲁棒性，其中非学习算法通常具有很高的计算时间。作为一致性，我们将使用与【33，第4节】中相同的符号。3.1一维示例我们考虑的是【33】中使用的一维玩具模型，源于【53，第4.4节】。

15楼

nandehutu2022

发表于 2022-6-11 09:42:53

LetL=2，X=[0，1]in（1.1），并确定噪声响应Y（X）和Y（X）asY（X）=u（X）+（十）≡sin（10x）1+x+2xcos（5x）+0.841+ σ（x）Z，Y（x）=u（x）+（十）≡ 0.5+σ（x）Z，其中Z`是独立的标准高斯，噪声强度固定在σ（x）≡ 0.2和σ（x）≡ 0.1，x为均质，但`=1，2为非均质。我们在X上的损失函数中取均匀权重λ（dx）=dx，它被解释为错误标记位置的百分比。图3：一维示例的真实响应曲面u和u以及相应的等级C。整个输入空间[0，1]分为三个部分，中间的等级等于1，否则等于2。然后计算真实排名等级C（x）为asC（x）=x为2∈ [0，r]∪ [r，1]，r<x<r时为1，其中r≈ 0.3193，r≈ 0.9279. 我们在图3中可视化了真实响应u和u以及相应的链接分类C。我们首先研究前馈神经网络的性能，并针对以下四种情况对其进行测试：在均匀网格上生成的训练数据或顺序设计生成的点。表1：（x，z（x））的不同设计总结生成x的方法名称方法∈ 生成标签的X方法UNIF uniform grids True label arg min\'u`（X）UNIF+NL uniform grids Noised label arg min\'y`（X）SD sequential design True label arg min\'u`（X）SD+NL sequential design Noised label arg min\'y`（X）设M为训练数据的大小。为了进行全面的研究，我们在不同的M=128、256、512下进行实验。顺序设计产生的点使用【33】中开发的“Gap-SUR”方法，主要集中在边界附近Ci，即randr周围，以及“假”边界x=0，其中两条线非常接近，但彼此不接触。

16楼

nandehutu2022

发表于 2022-6-11 09:42:56

然后，通过在x1:M处取真实曲面u`的argmin或噪声采样器y的实现y `来生成标签。为了关注表1中数据设计的性能，我们将网络架构定义为具有两个完全连接的隐藏层的前馈神经网络。每个隐藏层中的神经元数量设置为M/8。对于这个二元分类问题，输出层包含一个神经元，通过使用sigmoidactivation函数，产生表面1为其认为的最小值的概率。该网络经过1500个时代的训练，使用m/2数据更新每个梯度。一个历元是对整个数据的迭代。我们注意到，上述所有设置都可以更改，以便在准确性和效率之间进行适当的权衡。然而，为了进行比较，我们按照上面解释的方式对其进行了定义。同时，我们在优化器中调整学习率和其他参数，以便在1500个周期内更好地训练网络。在深度学习中，两个数字是最重要的，即训练精度和泛化精度。第一个指标表示网络从基于M个点计算的训练数据集中学习的程度，而后一个指标则衡量新位置x预测的准确性/∈ x1:M，在X上的内网格上计算。另外，请注意，后一个是1的离散化版本- L（C，Cdl），其中L是（1.3）中使用统一度量定义的损失。出于这两个原因，我们在表2中报告了不同计算预算M=128、256、512和表1中列出的不同设计的准确度，而不是损失。表2：具有不同计算预算M的一维示例的训练精度与泛化精度。使用的首字母缩略词是：UNIF=X上的统一网格，SD=Gap SURin生成的网格【33】，NL=带噪标签的训练。方法/预算M=128 M=256 M=512训练。Acc.一般Acc。

17楼

mingdashike22

发表于 2022-6-11 09:42:59

火车Acc.Gen.Acc.列车。Acc.Gen.Acc.UNIF 99.9%99.7%99.9%99.9%99.9%UNIF+NL 81.25%98.5%79.3%98.8%81.0%99.5%SD 99.5%98.3%96.1%98.9%98.1%99.5%SD+NL 64.1%97.3%57.2%92.3%58.2%94.2%。这是因为，泛化精度是在干净的数据上测试的，而在训练数据集中使用NoisyLabel会降低训练的“精度”，通过比较UNIF-toUNIF和NL可以证明这一点。事实上，当训练数据集中存在错误时，神经网络会自动检测这些错误并避免从中学习。经过仔细检查，由于低信噪比，训练数据集中的错误分类位置主要是错误标记的点，边界周围的点数量很少，这些点原本很难学习。这可以理解为，尽管带有噪声标签的训练数据不包含100%准确的信息，但网络通过不正确地训练来“学习”以最小化错误标签的影响。其次，通过比较UNIF+NL和SD+NL，我们观察到SD的使用进一步降低了训练精度。这是因为SD的输入数据包含更多错误，因为SD生成的点x1:M大多集中在边界r=0.3193、r=0.9279和伪边界x=0周围，其中信噪比较低，导致大量错误标记点。第三，我们观察到，训练数据中的误差比例存在一个阈值，以便能够自动检测，并且不会影响网络的预测精度。例如，与M=256时的SD和SD+NL相比，泛化精度显著降低。

18楼

mingdashike22

发表于 2022-6-11 09:43:02

我们将这种现象解释为，有足够多的错误标签让网络相信他们（错误的标签）是真实的。最后，我们指出，随着训练数据集模拟预算的增加，UNIF情况下的结果更好，这符合常识：数据越多，学习越好。而在SD情况下，训练和泛化精度都有一个转折点，即64.1%→ 57.2% → 58.2%和97.3%→ 92.3% → 94.2%. 这是因为我们使用的Gap-SUR标准，其中x1:Mare通过减少逐步不确定性顺序选择。当我们自适应地增长x1:M时，算法将首先拾取边界周围的点。从M=128到M=256的额外预算主要用于边界点，这增加了错误标签的百分比，导致准确性下降。一旦这些点达到饱和（不确定性减少变得非常小），Gap-SUR会倾向于具有较大后验方差的位置，通常是Ci。因此，在M=512的情况下，额外的256个点比边界点更多地指向内部点，从而提高了精度。下面，我们还在图4中绘制了训练和泛化精度与历元的关系。图5给出了使用M=128个训练数据的UNIF、UNIF+NL、SD和SD+NL的预测排名分类以及与真实值的相应差异。图4：一维示例中UNIF、UNIF+NL、SD、SD+NL的训练和泛化精度与历元的关系。人们还可以注意到，在图5中，网络预测的分类错误，不仅在边界附近，而且在两个响应面相互靠近的“假”边界x=0处。

19楼

大多数88

发表于 2022-6-11 09:43:05

这是因为，SD生成的训练数据点通常靠近边界或“假”边界，使用噪声标签将导致边界或“假”边界附近的点具有错误的分类，这使得网络在这些地方预测错误的分类。3.2二维示例在本小节中，我们通过【33】中使用的二维（2D）示例进一步研究了深度学习算法对噪声标签、采样位置和预算的敏感性。它处理L=5个曲面和2D输入空间X=[-2，2]，具有恒定的观测噪声`（x，x）~ N（0，σ`），σ`=0.5，` = 1, · · · , 5. 图6显示了问题（1.1）的每个表面和真实类别C的特定响应函数。（a） UNIF（b）UNIF+NL（c）SD（d）SD+NL图5：预测的c类（x）（蓝色）以及与真实c类（x）的相应差异-^C（x）（红色）由UNIF、UNIF+NL、SD、SD+NL使用大小为M=128的一维示例训练数据。错误预测的分类在第二行的子图中标记为“x”。表面响应u（x，x）2- x个- 0.5xu（x，x）2（x- 1） +2倍- 2u（x，x）2 sin（2x）+2u（x，x）8（x- 1） +8倍- 3u（x，x）0.5（x+3）+16x- 6图6：左：每个表面的特定响应函数；右图：二维示例的真正排名分类器，该示例划分了整个输入空间[-2, 2] × [-2，2]分为六部分。表3：不同计算预算M的二维示例的训练精度与泛化精度。使用的首字母缩略词是：UNIF=X上的统一网格，SD=Gap SURin[33]生成的网格，NL=带噪音标签的训练。方法/预算M=256 M=576 M=1024Train。Acc.Gen.Acc.列车。Acc.Gen.Acc.列车。Acc.Gen。

20楼

能者818

发表于 2022-6-11 09:43:08

根据UNIF 99.9%94.7%99.7%96.6%99.5%97.7%UNIF+NL 98.4%92.8%93.2%95.1%90.8%96%SD 96.9%94.4%96.1%96.4%96.1%97.4%SD+NL 82.0%94.1%71.8%94.6%66.8%96.8%，我们执行与1D示例中相同的四种类型的训练数据（参见表1），并在表3中显示精度结果。我们还在图7中绘制了训练和泛化精度Versus历元。图9给出了使用M=576训练数据的UNIF、UNIF+NL、SD和SD+NL的预测排名分类以及与真实值的相应差异。这些测试结果与1D示例一致，即泛化精度对训练数据集中的噪声不是很敏感；将SD用于图7：二维示例中UNIF、UNIF+NL、SD、SD+NL的训练和泛化精度与历元的关系。由于学习数据集中的错误更多，生成采样位置x1:M可能会降低训练精度，增加预算M将使其在边界周围的点饱和之前更低。据我们所知，文献中没有理论结果表明哪种类型的体系结构最适合特定应用。相反，人们通常实现几个NNs架构，并根据经验选择其中最好的。请注意，将rankingresponse surfaces视为图像分割允许使用广泛的深层神经网络。在本例中，我们使用M=576个带噪声标签的均匀网格点来实现UNet架构（图2中的右面板），并在图8中显示预测的分类。UNETHA的泛化精度为96.44%，表现出比前馈NNs更好的性能（对应于表3中的95.1%），且训练时间相当。

[量化金融] 响应面排序的深度学习及其在优化中的应用 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群