|
,(Xn,yn)带Xj∈ RPA和yj∈{-1,0,1}表示情感类,通过正则化训练误差n校准线性评分函数s(X)=ω>X+b-1nXj=1L{yj,s(X)}+λR(ω)(1),其中n是文档中的句子数,L(·)作为损失函数,R(·)作为正则化项,惩罚λ≥ Xjis是由单词向量组成的第j个句子;yjis是对应的语义方向,注释者将其标记为-1(负)、0(中性)或1(正)。(1)中的第一项表示我们旨在最小化的训练误差,而第二项控制模型集的复杂性,通常称为正则化器。如果采用高容量的函数集,则产生的训练误差较小,但可能出现过拟合问题。同样,当使用更简单的正则化器时,往往会发生更大的训练错误。我们应用了不同的损失函数。就SVM而言,可以使用铰链损失SL{y,s(X)}=max{0,1- s(X)y}(2)或逻辑似然L(u)=exp(-u) /{1+经验(-u) }。最小二乘法损失L(u)=uleads到众所周知的岭回归。作为正则化项,可以使用LnormR(ω)=p-1Ppj=1ωjor形式R(ω)=Ppj=1 |ωj |,给定校准任务为套索类型扭曲。2.2.2金融短语库作为培训数据集Malo等人(2014)构建的人工注释金融短语库可用于培训和评估金融和经济新闻文本的替代模型。有了这些训练数据,我们可以校准(1)中的评分函数s(X)。校准方法基于随机梯度下降法,用于最小化(1)中的损失函数,该损失函数写为可微分函数之和。
|