|
此外,它还可以改进较长文本中的梯度流,例如本文中我们使用的文本。4.1.4. 特征扩展和预测我们现在有了一个密集的文本表示,h final,我们将其与表1中的数值变量Hnum连接,生成一个长度等于手工制作的特征数量和LSTM单元大小之和的向量HConcat。这种串联的表达是通过大小为200和50的两个完全连接的层进行的,其中一个神经元层是乙状结肠激活的最后一步。这是为了在进行最终预测之前,允许文本表示与数值变量交互。尺寸为200和50的两层使用矩形线性单元(ReLU)激活函数HCONCAT=[最终,hnum](12)l=ReLUW·h最终+b)(13)l=ReLUW·l+b)(14)PD=σW·l+b(15) 其中PD表示预测的遇险概率。我们使用Adam优化器(Kingmaand Ba,2014)训练网络,并使用二进制交叉熵作为损失函数。我们将在第4.2节中详细说明交叉验证网络配置的参数。众所周知,神经网络容易过度匹配(Gu等人,2018)。作为规范培训过程的一种方式,我们留出10%的培训集作为验证。验证集用于提前停止,即当网络开始超过fit.4.2时,我们终止梯度下降。在主模型中,我们使用超参数空间上的交叉验证来调整神经网络。对于卷积神经网络,我们考虑集合{10,15,20}中的块大小,{40,60}中的滤波器数量,{2,4,6}中的池大小。对于递归神经网络,我们考虑{50100150}中的LSTM单元大小。最后,我们考虑{10-3,10-4}.
|