|
方程式3采用标准Softmax激活函数的形式,而SP(方程式4)的激活函数通过T因子进行调整,T因子在DNN文献中被称为“温度”,以改变logits的比例【34】。根据制定的选择概率,我们通过最小化经验风险(ERM)来训练模型:minwr,ws,w,TR(X,Y;wr,ws,w,T;cH)=minwr,ws,w,Tn-NrNrXi=1KrXkr=1ykrlog P(ykr,i;wr,w;cH)-λNsNsXt=1KsXks=1ykslog P(yks,t;wr,w,t;cH)+λ| | w | |+λ| | ws |+λ| | ws- wr | | o(5)方程式5由三部分组成:第一部分-NrPNri=1PKrkr=1ykrlog P(ykr,i;wr,w;cH)是RP的经验风险;第二部分-λNsPNst=1PKsks=1ykslog P(yks,t;wr,w,t;cH)是SP的经验风险;第三部分λ| | w | |+λ| | ws | |+λ| | ws-wr | |是显式正则化。总的来说,方程5包含四个用于显式正则化的超参数(λ、λ、λ、λ)。λ调整RP和SP之间的经验风险比率。本研究通过λ=1同等对待RP和SP中的一个观察结果。λ和λ共同调整共享层和SP特定层的绝对大小:较大的λ和λ会导致较大的权重衰减,降低复杂DNN模型中的估计误差【66】。λ控制RP和SP特定层之间的相似度。随着λ变得非常大,ERM会对NRP和SP特定层之间的巨大差异进行更多惩罚,从而导致RP和SPmodels中的系数共享更多的相似性。由于在我们的案例中,Ws和Wr并不完全匹配,因此Ws用于表示与RP规格重量相对应的SP规格重量。该规范ERM公式和研究人员可以自由选择λ的值,因为其值规范没有明确的规则。我们的选择反映了我们的信念,即每个个体在RP和SP中都是相等的。方程式5中的正则化通常用于MTLDNN研究【19,37】。3.2.
|