|
在继续之前,“非常积极”和“积极”标签被合并为“积极”。3.4特征提取下文概述了应用的预处理和特征提取技术。3.4.1预处理数据3.4.2柠檬化柠檬化是一种归一化过程,通过该过程可以减少数据中的形态变化。Word formsTable 5。多数票标签分布----0+++16(1.6%)122(12.2%)(47.9%)(37.9%)(0.4%),如“diving”和“dove”,将映射到其字典形式“diving”。与更粗糙的发条过程(更快、更简单)相比,productedlemmas在语言学上是有效的[40]。为了创建准确的引理,在确定引理之前,必须为每个标记分配一个词性标记(POS-tag)。在词性标注中,词类如“名词”或“副词”被添加到每个单词中。这些词汇分类在处理消歧方面很有价值。pacy-Python包【41】用于标记、解析和标记来自每个源的数据。Choi等人进行的一项比较研究表明,语法分析准确率在[42]引入的现有语法分析的2%以内(Spacy为92.8%,Andor等人为94.3%)。设置保留为默认设置。文本还可能包含各种类型的噪音,如对文本极性没有任何影响的单词和标点符号。在使用分类器处理数据之前,数据已被清除。在过滤停止词的过程中,从LTK停止词语料库中删除了否定词【44】。标点符号是使用正则表达式删除的,与源通道无关。然而,[45]假设,由于短信(缩写和不规则形式)的噪音性质,从推特中删除停止词对情绪预测的准确性有负面影响。
|