楼主: 何人来此
1041 24

[量化金融] 将新闻情绪与网络浏览数据相结合,可以提高对信息的预测 [推广有奖]

21
mingdashike22 在职认证  发表于 2022-5-7 06:09:03
如果vd是第d天的原始交易量和日内时间t,我们将按比例计算的时间序列定义为vd,t=vd,tζvt,(3)其中ζvt=TXdvd,t∧d,(4)和∧d=Xtvd,t,(5)即第d天的总交易量,t是总交易日数。2.价格回报(R)时间序列。我们初步计算了对数回报率,定义为asrt=log(ptpt-1) ,(6)其中PTI是区间内最后记录的价格(t- 1,t]。日间t的收益率通过一个因子ζrt进行重新调整,该因子被计算为在所有天数内,通过平均波动率重新调整时间t的绝对收益率的平均值。更准确地说,如果rd是d天和日内时间t的原始回报,我们定义了重新标度的时间序列srd,t=rd,tζrt,(7),其中ζrt=TXd | rd,td,(8)和Ξd=平均值(| rd,t |),(9)我们计算d天内所有t的平均值。波动率(σ)时间序列。我们使用重新调整后的收益率σt=|Rt |的绝对值作为非季节化交易日波动率的简单替代。(10) 请注意,由于2的定义,波动率σ已经去季节化。2情绪分析我们在这里讨论我们如何标记新闻以及我们如何进行情绪分析。雅虎日志中包含的新闻数据!财务用相关股票进行标记,通过两种不同的标记方法进行识别。第一类注释是由一组编辑提供的,他们手动评估了在Yahoo!Financewebsite,并在其上标记与文章内容相关的公司。除此之外,还通过应用专有实体识别工具识别相关公司。我们丢弃了所有贴有超过40家公司标签的文章。

22
mingdashike22 在职认证  发表于 2022-5-7 06:09:06
在初步评估中,我们试探性地选择了这个阈值,其中我们验证了标记有5家或5家以上公司的文章通常与聚合定期报告相对应,这些报告提到了很长的股票列表,但没有真正具体说明其中的任何一家。在获得的文章中,我们进一步处理了标记有多家公司的文章,引入了一些额外的过滤器,以确保当文章的内容与公司真正相关时,我们会考虑该公司的新闻,而不是在一家公司仅因文中随意提及而被标记的情况下。这些额外的过滤器只包括保留文章标题或第一段中提到的库存,其中通常包含文章中讨论的关键概念的摘要。然后,每一篇文章都会对所有存货的时间序列做出贡献。如正文所述,我们使用SentiStrength添加了一系列对金融领域特别感兴趣和重要的关键词。我们使用通用词典测试了好消息、坏消息或中性消息的分类。在84%的病例中,两种词典的分类是相同的。这一结果表明,我们的分类和随后的分析对词典的选择非常可靠。有趣的是,17%的被《普通词典》归类为中性的新闻在使用《金融词典》时被归类为正面或负面新闻,而只有8%被《金融词典》归类为中性的新闻在使用《普通词典》时被归类为正面或负面新闻。这表明,使用金融词典可以增强对新闻给出正面或负面符号的能力。2.3点击和情绪时间序列与财务时间序列一致,我们只考虑交易时间和交易日。

23
大多数88 在职认证  发表于 2022-5-7 06:09:09
因为我们对这个时间窗口中的点击行为感兴趣,这意味着我们忽略了这个时间窗口中的点击行为。根据每条新闻的点击历史,我们创建了两个时间序列:第一个是每家公司每分钟的点击总量,第二个是点击次数乘以相关新闻的情绪分数。1.单击(C)时间序列。从最小时间尺度τ(在我们的例子中为一分钟)的每条新闻的点击次数开始,我们通过聚合给定公司的所有新闻的点击次数,在时间尺度t上构建一个时间序列。因此,如果我们用N表示一家公司的新闻数量,用ciτ表示新闻i在τ标度下的点击数量,那么总数量Ct可以定义为asct=tXτ>t-1NXi=1ciτ。(11) 未在时间间隔内查看的新闻没有点击次数。我们通过一种简单的方法从点击中过滤出每天的模式。白天t内的点击量通过因子ζct进行重新缩放,该因子被计算为时间t内点击量的平均值,该值由每天点击的总次数标准化。更准确地说,如果cd是第d天的原始点击量和日内时间t,我们将重新缩放的点击时间序列定义为:cd,t=cd,tζct,(12),其中ζct=TXdcd,tΓd,(13)和Γd=Xtcd,t,(14)以及Γd一天的点击总数。2.情绪时间序列。为了构建这个时间序列,我们考虑了新闻标题的情绪。使用之前使用的相同符号Dst=tXτ>t-1NXi=1siτ,(15),其中siτ是符号(-1,0,1)时间τ3发布的新闻标题的情绪。加权情绪(WS)时间序列。我们将每个新闻的点击次数乘以其情绪得分。使用相同的点击时间序列符号,我们有:W St=tXτ>t-1NXi=1ciτsiτ。

24
何人来此 在职认证  发表于 2022-5-7 06:09:12
(16) 通过这种方式,我们根据新闻受到的关注程度来衡量每一条新闻的标志。我们注意到,对于每个交易日,我们都会考虑当天点击的所有新闻,而不仅仅是当天发布的新闻。然后,我们将加权情绪定义为W St=符号(W St)Ct。(17) 2.4幂律指数的估计我们通过使用ColingilesPie开发和维护的R包幂律来估计点击量分布的幂律尾指数,如[51]所述。具体数字见表3。2.5多重假设检验在表4和表5中,我们分别报告了在Bonferroni提出的非常保守的校正下,零Spearman相关性和零Granger因果关系的检验结果。如果进行了NTT测试,且预期的显著性为p(在我们的案例中为5%,则只有p值小于p/NTA的测试被拒绝。由于我们进行了100次测试,我们的修正p值为0.05%。3讨论已知特定公司新闻的语义分析对未来价格变动的预测能力很小。根据我们的发现,我们认为这种影响可能与图1清楚地显示了新闻接收:它的无标度行为反映了它们传达的信息的极端异质性,以及它们在读者中产生的惊喜。我们的样本分析表明,通过增加网络用户的点击活动,我们可以大大提高新闻对价格回报的预测能力。这是因为仅根据新闻情绪构建的时间序列给出了相同的表3:带标准误差的尾部指数α和下限xmin>0α和根据在美国股市交易的100只高资本股票估算。

25
mingdashike22 在职认证  发表于 2022-5-7 06:09:15
按照[51]中详述的程序,我们估计与大于xmin的整数相关的概率分布,其表达式读取为p(x)=x-1.-α/ζ(1+α,xmin)。归一化常数对应于Hurwitz zeta函数ζ。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-29 19:56