楼主: mingdashike22
892 44

[量化金融] 神经网络条件密度估计:最佳实践和 [推广有奖]

11
何人来此 在职认证  发表于 2022-6-14 06:03:05 |只看作者 |坛友微信交流群
(2017),who提议使用神经网络控制混合料密度模型的参数。当神经网络和密度混合被选择为有效表达时,任何条件概率分布都可以近似(Hornik,1991;Li和Andrew Barron,2000)。Sarajedini等人(1999年)提出了将一般指数族分布参数化的神经网络。然而,这限制了条件密度估计的总体表达能力。机器学习的最新趋势是使用基于神经网络的潜在密度模型(Mirza和Osindero,2014;Sohn等人,2015)。虽然这些方法已成功地估计了图像的分布,但不可能恢复此类潜在密度模型的PDF。从这个意义上讲,更有希望的是规范化潮流,即使用一系列可逆映射将简单的潜在分布转化为更复杂的密度函数(RezendeMohamed,2015;Dinh等人,2017;Tripe和Turner,2018)。由于规范化流程的PDF易于处理,这可能是一个有趣的方向,可以补充我们的工作。虽然基于神经网络的密度估计器对基础密度的假设很少,但当使用最大似然目标进行训练时,它会受到严重过度拟合的影响。为了消除过度拟合,文献中探索了各种正则化方法(Krogh·and Hertz,1992;Holmstrom and Koistinen,1992;Webb,1994;Srivastavaet al.,2014)。然而,这些方法的发展侧重于回归和分类问题。我们的工作重点是基于神经网络的密度估计的正则化。在这方面,我们利用噪声正则化框架(Webb,1994;Bishop,1995),在密度估计的背景下讨论其含义,并对其有效性进行经验评估。四、

使用道具

12
kedemingshi 在职认证  发表于 2022-6-14 06:03:09 |只看作者 |坛友微信交流群
神经网络条件密度估计下一章介绍并讨论了两种基于神经网络的条件密度估计方法。这两种密度估计器本质上都是参数模型,但与传统的参数方法相比,其灵活性要高得多。在第一部分中,我们正式定义了密度模型并解释了其拟合过程。本章的第二部分关注了这种灵活性带来的挑战,引入了一种平滑正则化的形式来对抗过度拟合,并实现良好的泛化。A、 密度模型A。1、混合密度网络混合密度网络(MDN)将传统神经网络与混合密度模型相结合,以估计条件分布p(y | x)(Bishop,1994)。特别是,无条件混合分布p(y)的参数由神经网络输出,神经网络以条件变量x为输入。为了我们的目的,我们采用了具有对角协方差矩阵的高斯混合模型(GMM)作为密度模型。条件密度估计^p(y | x)如下所示:KGaussians^p(y | x)=KXk=1wk(x;θ)N(y |uk(x;θ),σk(x;θ))(7),其中wk(x;θ)表示权重,uk(x;θ)表示平均值,σk(x;θ)表示第k个高斯分量的方差。所有GMM参数均由参数θ和输入x的神经网络控制。可以使用具有全协方差矩阵∑kb的GMM,使神经网络输出相应Cholesky分解的下三角项∑1/2k(Tansey et al.,2016)。然而,我们选择对角协方差矩阵,以避免神经网络的输出层大小随着Y维数的增加而二次增加。混合权重wk(x;θ)必须类似于分类分布,即。

使用道具

13
kedemingshi 在职认证  发表于 2022-6-14 06:03:12 |只看作者 |坛友微信交流群
它必须保持pkk=1wk(x;θ)=1和wk(x;θ)≥ 0k、 为了满足这些条件,使用softmax函数。wk(x)=exp(awk(x))PKi=1exp(awi(x))(8)其中,awk(x)∈ R表示神经网络发出的logit分数。同样,标准偏差σk(x)必须为正。为了确保相应的神经网络满足非负性约束,应用了sofplus非线性:σk(x)=log(1+exp(aσk(x)))(9)由于分量表示uk(x;θ)不受此类限制,因此我们对相应的输出神经元使用了无非线性的线性层。A、 2。核混合网络虽然MDN类似于纯参数条件密度模型,但一种密切相关的方法,即核混合网络(KMN),结合了非参数和参数元素(Ambrogioni et al.,2017)。与MDNs类似,^p(y)的混合密度模型与以条件变量x为输入的神经网络相结合。然而,神经网络仅控制混合组分的权重,而组分中心和比例是确定的。r、 可以形象地想象,神经网络是在大量预先存在的核函数之间进行选择,以建立最终的组合密度函数。与非参数密度估计一样,分量/核被放置在每个训练样本或样本子集中。对于每个核中心,选择一个或多个尺度/带宽参数σmare。对于MDN,我们使用高斯作为混合成分,其中尺度参数与标准偏差直接一致。设K为核中心数ukand M,不同核尺度数σM。KMN条件密度估计如下:^p(y | x)=KXk=1MXm=1wk,M(x;θ)N(y |uK,σM)(10)与之前一样,权重wk,mc对应于softmax函数。Ambrogioni等人。

使用道具

14
可人4 在职认证  发表于 2022-6-14 06:03:15 |只看作者 |坛友微信交流群
(2017)建议通过递归移除每个距离前一个点δ小于常数的点yn来对训练数据进行二次采样,从而选择核中心ukb。这可以看作是一种幼稚的聚类形式,它取决于数据集的顺序。相反,我们建议使用一种成熟的聚类方法(如K-means)来选择核中心。高斯核的尺度可以固定,也可以与神经网络权重联合训练。在实践中,将{σm}Mm=1作为可训练参数,持续改进性能。总的来说,KMN模型比MDN模型更具限制性,因为混合成分的位置和比例在推理过程中是固定的,不能由神经网络控制。然而,由于KMN的灵活性降低,它们比MDN更不容易过度膨胀。B、 拟合密度模型通过最大似然估计来拟合神经网络的参数θ。在实际中,我们最小化了训练数据D={(xn,yn)}Nn=1:θ的负条件对数似然*= arg最小θ-NXn=1log pθ(yn | xn)(11),其中,(11)中的负对数似然通过数值优化最小化。由于其在非凸优化问题中的优越性能,我们将随机梯度描述与自适应学习率方法Adam相结合(Kingma和Ba,2015)。B、 1。作为平滑正则化的可变噪声训练神经网络等高容量函数逼近器时的一个中心问题是确定模型的最佳复杂度。容量太有限的模型可能无法有效捕获数据的结构,从而导致强烈的限制偏差。另一方面,如果一个模型表现力太强,它很容易过度拟合训练数据,导致泛化能力差。

使用道具

15
mingdashike22 在职认证  发表于 2022-6-14 06:03:18 |只看作者 |坛友微信交流群
这个问题可以被视为在处理方差与归纳偏差时找到了正确的平衡。有许多技术可以控制偏差和方差之间的权衡,包括各种形式的正则化和数据扩充。有关正则化技术的概述,感兴趣的读者请参阅Kukaˇcka等人(2017)。在训练过程中向数据添加噪声可以被视为数据增强和规则化的一种形式,这种形式偏向于平滑函数(Webb,1994;Bishop,1994)。在金融领域,假设平稳的回报分布是一个合理的假设。因此,希望在学习过程中嵌入对平滑度的归纳偏差,以减少方差。具体而言,我们以随机向量ξ的形式添加小扰动~ q(ξ)与数据▄xn=xn+ξx和▄yn=yn+ξy。此外,我们假设噪声是零中心的,并且在尺寸上独立分布,标准偏差η:Eξ~q(ξ)[ξ]=0和Eξ~q(ξ)hξ>i=ηi(12)在讨论条件极大似然估计期间随机扰动数据的特殊影响之前,我们首先分析更一般情况下的噪声正则化。设LD(D)是一组数据点D={x,…,xN}上的损失函数,可以将其划分为与每个数据点xN相对应的损失总和:LD(D)=NXn=1L(xN)(13)由于添加随机扰动而产生的损失L(xN+ξ)可以通过xnL(xN+ξ)=L(xN)+ξ>xL(x)xn+ξ>xL(x)xnξ+O(ξ)(14)假设噪声ξ的大小很小,O(ξ)可以忽略。

使用道具

16
能者818 在职认证  发表于 2022-6-14 06:03:21 |只看作者 |坛友微信交流群
使用(12)中关于ξ的假设,预期损失可写为ξ~q(ξ)[L(xn+ξ)]≈ L(xn)+Eξ~q(ξ)hξ>h(n)ξi=L(xn)+ηtr(h(n))(15),其中L(xn)是无噪声的损耗,h(n)=Lx(x)Xn L w.r.t x的Hessian,评估为Xn。Webb(1994)和Bishop(1994)早些时候得出了这个结果。见附录。A用于派生。之前的工作(Webb,1994;Bishop,1994;An,1996)已经为回归和分类问题引入了噪声正则化。然而,据我们所知,噪声正则化尚未用于参数密度估计。在下文中,我们推导并分析了噪声正则化w.r.t.条件密度最大似然估计的影响。当涉及条件密度pθ(y | x)的最大似然估计时,损失函数与负条件对数似然L(yn,xn)=- 对数p(yn | xn)。让加性数据噪声的标准偏差分别为ξx、ξybeηx和ηy。最大可能性2 0 2y0.00.20.40.60.8概率密度Noise\\u std=0.002 0 20.00.10.20.30.40.5 Noise\\u std=0.052 0 2y0.00.10.20.30.4 Noise\\u std=0.20真实估计图1。噪声正则化对密度估计的影响。不同噪声正则化强度ηx、ηy的条件MDN密度估计(红色)和真实条件密度(绿色)。MDN已配备3000个样本。具有数据噪声的估计(MLE)等价于最小化lossL(D)≈ -NXn=1log pθ(yn | xn)+NXn=1ηytr(H(n)y)+NXn=1ηxtr(H(n)x)(16)=-NXn=1log pθ(yn | xn)-ηyNXn=1mXj=1对数pθ(y | x)y(j)y(j)y=yn-ηxNXn=1lXj=1对数pθ(y | x)x(j)x(j)x=xn(17),其中,第一项对应于标准MLE目标,而其他两项则构成平滑正则化。(16)中的第二项惩罚条件对数密度估计对数pθ(y | x)w.r.t.y的大负二阶导数。

使用道具

17
nandehutu2022 在职认证  发表于 2022-6-14 06:03:24 |只看作者 |坛友微信交流群
由于MLE目标将密度估计推向数据点yn中的高密度和强凹度,调节项抵消了这种过度拟合的趋势,并整体平滑了拟合分布。第三项惩罚条件变量x的大负二阶导数w.r.t,从而调节密度估计对条件变量变化的敏感性。这平滑了pθ(y | x)对x的函数依赖关系。如前所述,平滑正则化的强度可以通过微扰的标准偏差(ηx和ηy)来控制。图1说明了引入的噪声正则化方案对MDN密度估计的影响。简单的最大似然估计(左)会导致强烈的过度拟合,导致aspiky分布在训练数据之外的泛化能力较差。相比之下,使用噪声正则化(中间和右侧)进行训练可以得到更平滑的密度估计,更接近真实的条件密度。在第V.B节中,综合经验评估证明了噪声正则化的有效性和重要性。B、 2。数据规范化在机器学习和计量经济学的许多应用中,原始数据的值范围变化很大。特征之间在规模和范围上的显著差异可能导致许多学习算法的性能不佳。当训练过程中的初始分布在统计上与实际数据分布相差太远时,训练收敛速度很慢或可能完全失败。此外,许多超参数的影响往往受到学习特征和目标的价值范围的影响。例如,上一节介绍的噪声正则化的效果容易受到不同数据范围的影响。

使用道具

18
mingdashike22 在职认证  发表于 2022-6-14 06:03:27 |只看作者 |坛友微信交流群
为了避免由于数据值范围不同而产生的这些和更多问题,机器学习中的一种常见做法是对数据进行规范化,使其显示零均值和单位方差(Sola和Sevilla,1997;Grus,2015)。虽然这种做法对于分类和回归问题很简单,但这种转换需要在密度估计的背景下进一步考虑。本节的剩余部分详细介绍了如何正确执行数据规范化以估计条件密度。在这种情况下,我们将数据规范化视为变量的变化,并导出恢复原始数据分布估计所需的相应密度变换。为了规范化源自p(x,y)的训练数据D,我们沿每个数据维度估计平均值μ和标准偏差σ,然后从数据点减去平均值并除以标准偏差。x=诊断(σx)-1(x- ^ux)和▄y=diag(^σy)-1(y- (18)中的归一化操作是数据的线性变换。随后,在归一化数据上拟合条件密度模型,得到估计的PDF^qθ(| y | x)。然而,当执行推断时,人们对对应于条件数据分布p(y | x)的非规范化密度估计^pθ(y | x)感兴趣。因此,我们必须转换学习到的分布^qθ(| y | x),使其与p(y | x)一致。在这方面,两种转变→x和y→必须考虑y。前者很简单:由于神经网络经过训练以接收规范化输入x,因此有必要将原始输入x转换为x=diag(σx)-1(x- ^ux),然后在推断时将其送入网络。

使用道具

19
何人来此 在职认证  发表于 2022-6-14 06:03:30 |只看作者 |坛友微信交流群
为了解释y的线性变换,我们必须使用变量公式的变化,因为概率密度的体积在σy6=1时不保持不变。变量公式的变化可表述如下。定理1:设Y为连续随机变量,概率密度函数为q(Y),且Y=v(Y)为Y的可逆函数,逆Y=v-1(Y)。y的概率密度函数p(y)为:p(y)=q(v-1(y))*ddy公司v-1(y)(19) 在这方面,ddy(v(y))是v的雅可比矩阵的行列式,它对调节q(v)的体积至关重要-1(y)),因此Rp(y)dy=1。对于提议的数据规范化方案,v是线性函数v-1(y)=诊断(σy)-1(y- ^uy)(20),与(19)一起,^pθ如下所示为^pθ(y | x)=诊断(σy)-1 |^qθ(▄yx)=Qlj=1^σ(j)y^qθ(| y | x)(21)上述方程提供了一种简单的方法,用于从归一化混合物密度^qθ(| y | x)中恢复非归一化密度估计值。或者,我们可以直接恢复对应于topθ(y | x)的条件混合参数。设(▄wk,▄uk,diag(▄σk))为与q(▄y▄x)相对应的GMM的条件参数。基于变量公式的变化,定理2提供了重新参数化GMM的简单方法,以反映非规范化条件密度。作为定理2的特例,对于∑=diag(∧σ)和B=diag(σy),对应于^pθ(y | x)的变换后的GMM具有以下参数:wk=¢wk(22)uk=uy+diag(σy)¢uk(23)σk=diag(σy)¢σk。(24)定理2:设x∈ Rnbe是高斯混合模型(GMM)下的连续随机变量,这是x~ p(x),其中p(x)=KXk=1wkN(uk,∑k)。(25)任意线性变换z=a+x的Bx~ 带a的p(x)∈ Rnand B是可逆的n×n矩阵,遵循高斯混合模型,密度函数p(z)=KXk=1wkN(a+Buk,B∑kB>)。(26)证明。

使用道具

20
nandehutu2022 在职认证  发表于 2022-6-14 06:03:33 |只看作者 |坛友微信交流群
见附录。总体而言,数据规范化的培训过程包括以下步骤:1。估计训练数据2的经验无条件平均值^ux,^uyan和标准偏差^σx,^σyo。规范化训练数据:{(xn,yn)}→ {(▄xn,▄yn)}▄xn=diag(σx)-1(xn- ^ux),~yn=diag(^σy)-1(yn- ^uy),n=1。。。,N3。使用归一化数据4拟合条件密度模型^qθ(▄y▄x)。将估计的密度转换回原始数据空间,以获得^pθ(y | x)。这可以通过(a)通过改变(21)中的变量公式直接转换混合物密度^qθ,或(b)根据(22)-(24)V转换神经网络输出的混合物密度参数来实现。模拟密度的经验评估本章包括基于模拟密度的广泛实验研究。其组织如下:在第一部分中,我们解释了实验评估的方法,包括所采用的条件密度模拟和评估指标。以下各节包括对噪声正则化和数据规范化方案的评估,这已在第IV.B节中介绍。最后,我们提出了一项基准研究,将基于神经网络的方法与最先进的CDE方法进行比较。A、 方法学。1、密度模拟为了对提议的条件密度估计器进行基准测试,并进行旨在回答不同问题集的实验,使用了几种数据生成模型(模拟器)。密度模拟允许我们生成无限量的数据,更重要的是,计算真实条件数据分布和密度估计之间的统计距离。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-27 06:37