|
2014)和weadd wi,jto P。第三,我们迭代扩展基本词汇L。我们定义了一个算法f(wi;L,θ),该算法将一个词映射到情绪强度向量vi=(e,e,…,e),其中∈ [0, 1]. 正如我们在后面详述的,f是以参数θ和词库L为条件的。对于每个单词wi∈ P,我们使用f-tomap表示一个情绪强度向量vi。如果vi至少有一个正强度值,我们将一个词强度对(wi,vi)添加到基本词汇中。在一次迭代之后,我们检查基本词汇中的单词数量是否增加。如果是这样,我们重复迭代,直到字数收敛。接下来,我们介绍算法f。f的基本原理来源于K-最近邻算法,但我们在任务中对其进行了定制,并引入超参数α来控制噪声。对于单词w,我们使用预先训练的单词向量来构造包含K个最相似单词的单词集。然后我们检查Swand情感词汇L的交叉点,表示为SLw。如果SLW为非空,我们使用SLW中情感词的情感强度的加权平均值,根据它们与w的相似性来确定w的情感强度。我们将低于α的情感强度压缩为零以减少噪声。参数θ=(K,α)被选为(5,0.15),这是Yu等人(2019)建议的最佳参数。我们使用样本外测试来验证该方法。在每次迭代i之后,我们得到一个扩展的词库Li。对于测试集Lte中的每个单词w,我们使用f(w;Li,θ)生成w的预测运动强度向量v。然后,我们使用平均绝对误差(MAE)来评估v和Quan和Ren(2010)提供的人类注释值向量v之间的误差。图EC。1.1说明了每次迭代的扩展字数和预测误差。当迭代次数为20次时,情感词的数量收敛。
|