|
神经网络往往被用来解决预测任务;它们与模型层面的推理一致。5.2模型规格LSTM神经网络模型规格如下:P=Xn=1Yilog Fc(Xi,A,Ohm, B) +(1- Yi)日志(1- Fc(Xi,A,Ohm, B) )其中,如果他或她写在空白处,则为二进制指示符。绩效衡量指标为交叉entropyPFc(Xi,A,Ohm, B) 是一个大型参数化模型,它将搜索大量可能的函数形式来学习:Fc(Xi,a,Ohm, Bi)=fo(MXm=1bomfh(hm,t=t)+ch)fo(z)=σ(z)fh(z)=z如果z>10如果z<1P=引脚=1(Yi- Fc(Xi,A,Ohm, B) )Fc(Xi,A,Ohm, B) =XTib+aPkk=1 | bk |使用L1范数收缩大系数(第二部分)。相当于最小化验证数据集上的性能度量。预印本-2019年3月5日设计网络中的正则化通过超参数输入隐藏节点数(M),它决定BomHm,t=教学hm,t=t-过程由以下参数指定:hm,t=tanh(cm,t)σ(xt,iBu1m+hm,t-1Bu2m+cum)cm,t=cm,t-1σ(xt,iBf1m+hm,t-1Bf2m+cfm)+tanh(xt、iBc1m+hm、t-1Bc2m+ccm)σ(xt,iBp1m+hm,t-1Bp2m+cpm)模型是一个大参数模型,将在训练过程中减少。网络中的输入是字向量。单词向量的使用如今在自然语言中很常见,xt,i=dt,ibrviable encoded vectors,dt,i,表示第i条推文中的第t条单词,通过Brmatrix减少为单词向量xt,i。每个单词向量是表示一个单词的k维向量,每个单词向量元素是Brmatrix中“查找”的参数。5.3单词向量向量可能会提高模型的性能。下面是对模型第一部分中执行的降维的直观解释,从dummyvariable编码向量到word向量。单词通常被认为是虚拟变量,但它可能不是一个好的表示。
|