|
3(a)显示RTRS新闻文章的自动余弦相似性函数,关键词为“GM.N”、“IBM.N”、“PFE.N”、“AAPL.O”和“YHOO.O”(PFE.N和AAPL.O代表P Fizer Inc.和Apple Inc.,其中.O代表纳斯达克)。这些函数几乎是常数,Sa(t) =0.3,至少T≤ 200分钟。之后,功能会慢慢衰退,直到大约t=5×10分钟≈ 1年,是Sa((t)≈ 0.02分t=1年。图3。(a) 自动余弦相似性函数,(b)通用汽车、IBM、PFE、AAPL和YHOO新闻文章的交叉余弦相似性函数。虚线遵循指数幂律-0.35.衰变遵循幂律,Sa((t)∝ T-0.35小时≤ T≤ 10分钟。这些结果表明,新闻内容往往会被记住几个月。接下来,我们将关注新闻文章在横截面方向上的相似性。功能Sc(t) ,表示RTRS在时间t的新闻与其他通讯社在时间t的新闻之间的余弦相似性的平均值+t、 为了方便起见,本文通篇称之为交叉余弦相似函数。图3(b)显示了关键词为“GM.N”、“IBM.N”、“PFE.N”、“AAPL.O”和“YHOO.O”的文章的交叉余弦相似性函数。与自动余弦相似性函数相比,这些函数急剧衰减,并且((t)≤ 0.03分|t|≥ 60分钟。周围观察到一个相似峰t=0,Sc((t)≈ 0.3. 该值几乎与自动正弦相似性函数相同T≤ 200分钟,表明多家通讯社倾向于同时报道类似的新闻。V.新颖性和话题性检测投资者寻求预测不久的将来会发生什么,并根据这种预测买卖证券。因此,区分预期新闻和意外新闻很重要。
|