摘 要:随着微博的风靡,与之相关的研究得到各界的广泛关注。微博作为一种表达用户观点、传播热点事件的互联网社交工具,已经成为越来越多人日常生活中必不可少的一部分。本文结合已有研究,论述微博情感分析挖掘相关的研究背景以及目前研究现状, 针对中文微博情感分析的研究进行综述。
关键词: 微博;情感分类;
1. 引言随着 Web2.0的发展,人的参与性不断提高,网络的使用方式发生了改变,人们不再是被动的从网络获取知识,而是通过网络主动地表达自己的观点或对其他人或事件的态度,微博通过简短的140字更新信息,并实现多工具即时分享,使其成为互联网上一种新的重要媒体。微博的出现,使信息在微博中呈现出碎片化、即时化和移动化的特性,而不再是具有完整的上下文信息,通过微博自由、便捷、即时地抒发自己的情感,已成为互联网上的时尚,同时也使得其成为热点事件产生和谈论的重要场所,其中热点事件指某一时间内被广泛关注、争论、议论的事件、话题或者信息,因此对微博平台中热点事件的发现、监控及管理等方面的研究工作也就越发显得重要了。
2. 情感分析概述所谓情感分析,是指分析说话者在传达信息时所隐含的情绪状态,对说话者的态度、意见进行判断或者评估。情感分析在微博海量数据上的应用,将有助于完善互联网的舆情监控系统;丰富和拓展企业的营销能力;通过波动分析,实现对物理世界异常或突发事件的检测。此外,还可以应用于心理学、社会学、金融预测等领域的研究。故对于微博情感分析的研究有着很重要的现实意义。
2.1微博语言特点除了一些名人,微博的主人用的大都是网名,发表意见可以无所顾忌;微博的传播往往是蒲公英式,一个微博主发出一条引人瞩目的微博,就会形成一个主题,体现为标签,其他的微博会围绕这个主题发表意见,下一轮微博还可能会针对上一轮微博发表意见,以此类推,于是就形成了一个带有鲜明主题的话题型微博群。话题型微博群规模的大小取决于人们对该主题的关注程度。与一般的微博不同,话题型微博的文本结构形式决定了它的语言特点:句子简短,负面倾向多,语句口语化程度强,表达情感强烈而理性评价淡化,评价对象在句中不直接出现,语言不够规范等等。下面分别论述。
(1)句子简短,单句多
微博有字数限制,因而往往短小。话题型微博又因为有一个明确的话题,人们是围绕这个话题发表意见,写微博,只要表达了心情、态度,三言两语也可,只字片语也行,所以与一般文体相比,话题型微博中句子相对简短,单句居多。
(2)观点负面倾向多
话题型微博的形成是基于一定的社会话题和社会事件,而当今社会引起关注的话题负面性较多,这就使得话题型微博在表达观点时,以否定倾向居多。
(3)表达情感强烈而理性评价淡化
由于传播空间的相对自由和匿名评论的相对隐秘,因而网友在表达观点时会采用一些比较极端和激烈的形式,又因微博字数的限制,无法以逻辑鲜明的论述方式进行理性表达,所以在话题型微博中,观点句的表达往往感情色彩强烈,而理性评价淡化,脏话、粗话等表现力强的不雅语汇大量出现,这也成为话题型微博观点句在表达情感和态度时一种较广泛的表达方式。
(4)口语色彩浓重,情感因子颗粒度加大
微博虽然用的是书面形式,但交际的实时性、互动性,使得它具有浓重的口语色彩,人们往往会使用一些口语化词语把自己内心的真实感受直接表达出来,体现句子观点的情感因子颗粒度加大,往往不再是词,而是短语。
(5)隐晦表达观点
在话题型微博中,除了用一些很“给力”的词语明确表达观点外,人们还会采用一种隐晦的、非直接的方式,以言外之意表达观点。如:
<1>#食用油涨价#我可以说脏话吗?
这是一个疑问句,字面上看没有表达任何观点,然而在“食用油涨价”这一语境下,可以理解为说话者表达的是一种想用说脏话来发泄的冲动,因而也就间接地表达了对话题不满的情绪和贬斥的态度。
<2>#三亚春节宰客#当地的ZF部门这么做的用意是什么? 掩耳盗铃? 越抹越黑? 还是让游客永远不去三亚? 应该去测测智商了!
“应该去测测智商”表达了说话者对“当地ZF部门”的不满。
(6)评价对象省略
由于话题型微博的话题标签与文本存在着密切的关联,网友在发布微博时,往往可以直接对整个话题或话题的某一部分进行评价和表达态度,因而标签或者标签的一部分甚至标签外事物也就成为了评价对象。所以,话题型微博的评价对象常在文本中省略,观点句更加短小精悍,甚至短小到一个短语、一个词,也可以被人理解,不会造成传播上的歧义。如:
<1>#菲军舰恶意撞击#抗议!
<2>#菲军舰恶意撞击#真可恶
上面这些观点句都缺省了评价对象,在表达评价时只用了极简短的话语,但读者仍然能够理解它们评价的对象: <1>的评价对象是整个标签“菲军舰恶意撞击”这件事,<2>是标签中的“菲军舰”
(7)语言不够规范
含有大量非规范性的语言文字,也是话题型微博语言的一个特点。这种非规范性可能有几个方面的原因:一方面,是非人为的原因造成的输入失误或常识上的汉字书写错误;另一方面,微博表达自由,加之敏感话题在法律上的限制,会人为地加入一些噪声、非规范词、非规范符号和非规范语言格式。例如:
<1>#疯狂的大葱#找点空闲,找点时间! 带着钱包常去 http:/ /url. cn/1T8Gpq 淘宝小店去看看!
<2>#假和尚搂女子#真 TM 不要 Face。
例<1>加入网站链接等噪声;例<2>中英文混用,TM 是“他妈”的拼音缩写,不要 Face 是“不要脸”;
上述微博的语言特点就决定了在进行情感分析时所采取的对应策略。
2.2微博情感分析研究方向和思路当前流行的语义倾向性分析主要有 4 个大的研究方向:
(1)主客观分类
(2)词汇倾向性分类
(3)文本倾向性分类
(4)观点提取
一些研究工作表明,将客观文本识别出来有利于主观性文本的分析。文本倾向性分类目前比较流行的思路有三种:
第一种,首先确定词汇的倾向性评分,再对一个文本所有词汇的正负得分统计来判断文本的倾向性。
第二种,采用机器学习的方法,根据文本的词汇,利用传统的文本分类算法进行训练与分类。
第三种,利用基于语法语义分析的思路,结合语义分析和机器学习的方法对文本的倾向性进行分析。