|
因为我们对这个时间窗口中的点击行为感兴趣,这意味着我们忽略了这个时间窗口中的点击行为。根据每条新闻的点击历史,我们创建了两个时间序列:第一个是每家公司每分钟的点击总量,第二个是点击次数乘以相关新闻的情绪分数。1.单击(C)时间序列。从最小时间尺度τ(在我们的例子中为一分钟)的每条新闻的点击次数开始,我们通过聚合给定公司的所有新闻的点击次数,在时间尺度t上构建一个时间序列。因此,如果我们用N表示一家公司的新闻数量,用ciτ表示新闻i在τ标度下的点击数量,那么总数量Ct可以定义为asct=tXτ>t-1NXi=1ciτ。(11) 未在时间间隔内查看的新闻没有点击次数。我们通过一种简单的方法从点击中过滤出每天的模式。白天t内的点击量通过因子ζct进行重新缩放,该因子被计算为时间t内点击量的平均值,该值由每天点击的总次数标准化。更准确地说,如果cd是第d天的原始点击量和日内时间t,我们将重新缩放的点击时间序列定义为:cd,t=cd,tζct,(12),其中ζct=TXdcd,tΓd,(13)和Γd=Xtcd,t,(14)以及Γd一天的点击总数。2.情绪时间序列。为了构建这个时间序列,我们考虑了新闻标题的情绪。使用之前使用的相同符号Dst=tXτ>t-1NXi=1siτ,(15),其中siτ是符号(-1,0,1)时间τ3发布的新闻标题的情绪。加权情绪(WS)时间序列。我们将每个新闻的点击次数乘以其情绪得分。使用相同的点击时间序列符号,我们有:W St=tXτ>t-1NXi=1ciτsiτ。
|