|
这些输入的权重为Ul-和Ul+。神经网络通常使用图形处理单元(GPU)进行训练,GPU可以同时处理多个样本。为了有效地利用GPU,数据被分成大小相等的部分,称为小批量。每次处理小批量时都会更新权重。批量规范化使层标准化?s每个小批量的平均值和方差输出。输出分别按γland~βl进行缩放和移位。γland~βlare都是从训练中学到的。这种归一化过程已被证明可以加快收敛速度(Laurent et al.,2016)。4.2。实现细节每个示例的输入是一个字符数组(例如,[“X”、“Y”、“1”、“2”、“8”),用特殊字符填充到相同的长度。每个字符STI由查找表g转换为向量表示形式ht,称为characterembedding:g(st)=ht≡ [ht0,1,…,ht0,n]。(1) 字符嵌入的维数n是一个超参数。值ht0,1。。。,ht0,使用随机值初始化nare,并通过训练进行学习。嵌入按顺序输入神经网络,用时间步长t表示。神经网络由多个双向递归层组成,然后是一个或多个完全连接的层。批量规范化在整个过程中应用。因此,每个递归层的实现如下:~ htl=h~ htl-:~htl+i,(2)~ htl-= f(Bl(Wl-~htl公司-1+Ul-~ht公司-1升-)), (3) ~ htl+=f(Bl(Wl+~ htl-1+Ul+~ ht+1l+,(4)Bl(~ x)=γl^x+~βl,(5)其中f是直线单位,~ htl-1是前一层在同一时间步骤t,~ ht的激活向量-1L表示在前一时间步t从currentlayer激活-1,~ ht+1表示下一时间步t+1时当前层的激活。
|