|
在本文中,我们通过交叉熵损失函数测量重建误差,因为我们的大多数特征是概率x∈ [0,1]p.此外,我们加入了L2惩罚(也称为重量衰减)。这相当于在权重上使用assuminga-Gaussian先验,是一种鼓励权重之间稀疏性和改进泛化的常用方法。正则化参数λ捕获重建误差和模型复杂性之间的权衡。参数需要在模型之外进行调整,并提供一种防止过度拟合的方法。λ值越高,模型复杂度越低,其他条件相同时,可降低过度拟合的风险。最终成本函数为:L(x,z)=-NNXi=1pXk=1[xiklog zik+(1- xik)日志(1- zik)]+λkW k(3)多个解算器(例如,随机梯度下降)可用于执行优化。arg minw、ew、b、ebL(x、z |Θ)(4)步骤5:堆叠。一旦一个dA经过训练,就可以在上面堆叠另一个dA。层以前馈方式组织。第二个dA将前一个dA的编码输出(代码y)作为其新的输入x。dA的每一层都进行局部训练,无论其他层如何,都会找到自己的最佳权重。通过迭代,可以将多个dAs相互堆叠,以构造stackeddenoising自动编码器(SdA)。然后,可以将每个dA的编码权重视为下一步网络的初始化。图2显示了dA的工作流程。图2:去噪自动编码器的体系结构。4.2.2. 监督微调SdA可以以前馈、分层的方式进行培训。为了利用网络进行预测,网络培训继续进行有监督的微调,教DNN哪些类型的交易行为(以分布式表示的形式)识别A-book客户。为此,我们在SdA上添加了softmax回归。
|