|
在反向传递BP期间,为了更新TABL的参数,必须计算以下数量:L/WL/WL/λ, L/魔杖L/B其中L是损失函数。这些衍生物的推导见附录A.C.复杂性分析。如前一节所述,BL的最大复杂性为O(DD′+T T′+D′T′)。建议的TABL需要在内存中额外装载O(T)。BL的计算需要以下步骤:以O(D′DT+D′T T′)为代价的矩阵乘法wxww,以O(2d′T′)为代价的偏置移位和非线性激活。总的来说,BL的计算复杂度为O(D′DT+D′ttt′+2D′T′)。由于TABL具有与BL中相同的计算步骤,并对注意力步骤进行了额外计算,因此TABL的总计算复杂度为O(D′DT+D′T T′+2D′T′+D′T+3D′T),最后两项来自应用注意力maskA。为了比较我们提出的双线性结构中的瞬时注意mec-hanism和循环结构中的注意mec-hanism,我们估计了[3]中提出的基于注意的序列RNN(ASeq RNN)的复杂性作为参考。Le t D′表示编码器、内存和解码器模块中隐藏单元的尺寸。此外,我们假定输入和输出序列的长度相等。ASeq RNNAR的总内存和计算复杂度分别为O(3D′D+11D′2+11D′)和O(11T D′2+20T D′+4T D′+3T D′D+T)。附录B中给出了估算的详细信息。虽然电流和双线性弧结构的配置无法直接进行比较,但很明显,ASeq RNN与提议的TABL相比具有更高的记忆和计算复杂性。应该注意的是,ASeq RNN的给定复杂性是基于GRU推导的,GRU与LSTM相比具有更低的内存和计算复杂性。
|