|
[蕴涵,矛盾,中立],和为一。最后,优化NLI分类权重,以最大限度地减少每个样本的分类对数损失(^y,y)=-Xj=1yilog(^yi)(17)在训练期间,我们监控验证集的准确性,并选择具有最高度量值的模型。4.3. 序列模型我们从回顾递归神经网络(RNN)体系结构及其在单词序列编码中的应用开始本节。RNN能够处理可变长度序列,这是其复发细胞的直接结果,其在所有序列元素上共享相同的参数。在这项工作中,我们采用了长-短期记忆(LSTM)单元[39]和遗忘门ft[40]。LSTM细胞被赋予记忆状态,可以根据句子中单词的顺序学习表征。这使得LSTM更加精确地找到了无法使用标准单词袋表示法捕捉到的关系。设x,x,···,xt是一系列长度为T的观测值,其中xt∈ Rdw。一般而言,LSTM小区接收到先前的隐藏状态ht-1与当前观察XT和内存状态CT1组合,以输出新的隐藏状态ht。此内部存储器状态CTI根据其以前的状态和三个调制门(输入、忘记和输出)进行更新。形式上,对于每个步骤t,更新过程如下所示(参见图3的高级示意图):首先,我们计算输入it,忘记ft,并输出otgates:it=σs(Wixt+Uiht-1+bi)(18)ft=σs(Wfxt+Ufht-1+bf)(19)ot=σs(Woxt+UHT-1+bo)(20),其中σ是乙状结肠激活。其次,生成一个候选内存状态:eCt=tanh(Wcxt+Ucht-1+bc)(21)现在我们可以设置最终记忆状态Ct。
|