有道是,数据是把杀猪刀,红了樱桃,绿了芭蕉;且看名人掐架,褒绿贬红,鹿死谁家。以前小方小韩掐架的时候,做过方韩大战的社会媒体挖掘,结果显示两败俱伤。
据说由转基因之争引起的崔方大战是去年中文社会媒体的大事件,因此以小崔和小方两个话题的自动挖掘对照,应该可以反映这场大战的一个概貌,至少是一个侧面。
挖掘的数据来源是目前在我们现有的 index 中的中文社会媒体(包括简体和繁体,因与内容商协商仍在进行中,数据并不完整,特别是微博数据。但是数据对于两位是一视同仁的。)另一个需要说明的是,挖掘系统仍处于 beta 阶段,bugs 在所难免,但是多次由第三方判别的质量检测(QA)显示,褒贬抽取的准确度均在 85% 以上。
挖掘区间是 2013 年元月五日 至 2014 年元月六号,整一年。
两位都是大名人,这次挖掘的相关数据量上相差不大,在八万到九万左右。但一年来总体褒贬指数(net sentiment)小崔(60度)远远高于小方(零度)。
看这些数据,主要是比较中鉴别,因为两人的曲线在同一个框架内,相对意义应该靠谱。自动系统即便不完善,社媒数据即便很混沌,但对二位是一视同仁的。
以上是两位的社会媒体形象在时间尺度上的曲线对比(按日、按周和按月来展示),其全貌和趋势比较清晰。
小方似乎习惯于单方面宣告胜利,说 (大意):经过方崔大战,方还是那个方,崔已不是那个崔(形象完了)。
上面的形象曲线图说明,不是这样的。虽然各有起伏,一年来小崔一直在小方之上,二者的差距并未明显缩小,大体呈平行势态。半年来大战日趋激烈,但是整体趋势并没有大的改变。小方还是那个小方,小崔也还是那个小崔。
由于双方的粉丝都很激烈,为免过度解读引起新的口水战,下面只提供数据,不再做解读。
(1)共现主题词:(字体大小与热议成正比)
(2)对二位的社会媒体情绪云图:(褒绿贬红;字体大小与热议成正比)
(3)褒贬理由的分布:(褒绿贬红;字体大小与热议成正比)
(4) 喜欢自有喜欢的理由:
(5)厌恶亦有厌恶的理由:
(6)所调查的数据来源种类:
(7)所调查的数据分布:
社交媒体样本:
DIsclaimer: still in beta, use at your own risk. bug report is welcome.
本文引自李维博客,
Simon Fraser University,博士,研究领域信息科学