|
网络应该被折叠多少次?每个隐藏层中有多少隐藏的神经元?如何执行“变量选择”?其中许多问题都可以通过一种称为“辍学”(Srivastavaet al.,2014)的随机搜索技术来解决,我们在第2.4.52.3节“培训、验证和测试”中讨论了这种技术。为了构建和评估学习机,我们首先将数据分为培训、验证和测试集。训练数据由输入-输出对D={Yt,Xt}Nt=1组成-(T-1).然后我们对数据进行排序,得出Dseq={Yt,Xt}Nt=1。目标是找到机器序列学习器Y=F(X),其中我们有一个输出信号Y的预测器Y的损失函数l(Y,^Y)。在许多情况下,有一个潜在的概率模型p(Y | Y),那么损失函数就是负对数概率L(Y,Y)=- 对数p(Y | Y)。例如,在高斯模型下,L(Y,^Y)=| | Y-^Y | | 2是L2形式,对于二进制分类,L(Y,^Y)=-Y log^Y是负交叉熵。在其最简单的形式中,我们用正则化惩罚φ(W,b)求解一个优化问题minimizew,bf(W,b)+λφ(W,b)f(W,b)=1NNXt=1L(Yt,^Y(Xt))。这里λ是一个全局正则化参数,我们使用验证数据上模型的样本外预测均方误差(MSE)对其进行调整。正则化惩罚φ(W,b)引入了偏差-方差权衡。L由链式规则以闭合形式给出,通过对未展开网络的反向传播,权重矩阵^W用随机梯度下降法拟合。见Rojas(1996);Graves(2013)进一步描述了随机梯度下降,asit属于递归神经网络。TensorFlowAbadi et al。
|