|
假设池函数在每个时间步都需要一个遗忘门Ft和一个输出门Ota,那么完整的计算过程可以描述如下:Z=tanh(Wz* 十) F=σ(Wf* 十) O=σ(Wo* 十) ,(5)其中Wz、wf和wo是卷积滤波器,并且* 表示沿时间方向的屏蔽卷积。QRNN最显著的优点是卷积网络和递归网络的许多现有扩展可以直接应用于QRNN。正则化,如基于变量推理的辍学(Gal和Ghahramani,2016)和zoneout(Krueger等人,2016),可能是受LSTM启发的稳健扩展。Skip Recurrent Neural Network(SkipRNN)(Campos et al.,2017)通过学习跳过状态更新而丰富了现有的Recurrent网络,而没有明确的关于哪些样本对当前任务无用的信息。SkipRNN经过优化,可缩短计算图形的有效大小,减少长期依赖关系建模的更新次数。二进制状态更新门ut∈建议使用{0,1}来决定RNN是更新状态还是仅复制以前的状态。在每个时间步t,序列模型学习发出更新状态的概率,即^ut+1∈ [0, 1]. 整个过程如下所示:ut=fbinar-ize(^ut)st=ut·S(st-1,xt)+(1- ut)·st-1.^ut=σ(Wpst+b+p)^ut+1=ut·^ut+(1-ut)·(^ut+最小值(^ut,1-^ut)),(6)其中wp是权重向量,bp是偏差,fbinar size:[0,1]→ {0, 1}.学习跳过状态更新的好处在于几个方面。首先,更少的更新步骤back进一步传播梯度。复制以前的状态可以增加网络内存及其建模长期顺序依赖关系的能力。此外,较少的状态更新表明计算量较小,收敛速度较快,这使得模型训练比其他RNN变体容易得多。
|