楼主: 何人来此
1043 24

[量化金融] 将新闻情绪与网络浏览数据相结合,可以提高对信息的预测 [推广有奖]

11
大多数88 在职认证  发表于 2022-5-7 06:08:30
至于市场变量,我们从点击时间序列中去除了日内模式。事实上,新闻的发布[15]和用户的点击活动[16]都显示出强烈的日内季节性。这些模式可能与人类在一天中进行活动的方式有关(例如,午餐时间的小活动,工作日开始或结束时更繁忙的活动)。方法情感分析关于搜索引擎查询的分析,最近的一些著作[20,21,22,23,24,25]研究了与特定股票相关的每日查询次数与同一股票交易量之间的关系。关于新闻作用的一份不完整的贡献列表包括以下研究:(i)外源性新闻与价格变动之间的关系[12,26,27,28],(ii)媒体的高悲观或低悲观与高市场交易量之间的相关性[13];(iii)新闻情绪、收益和回报可预测性之间的关系[29,30],(iv)新闻在交易行为中的作用[15,31,32,33];(v) 宏观经济新闻在股票收益表现中的作用[34],以及(vi)市场对新闻的高频反应[35]。例如,在最近一篇与我们相关的论文[21]中,作者表明,纳斯达克股票的日交易量可以通过与同一股票相关的每日查询量进行预测。在另一篇论文中,一项类似的分析表明,查询量的增加预示着未来两周的股价会上涨[36]。在[25]中,作者测试了投资者注意力的解释力——以百度指数中每日股票名称的搜索频率来衡量——是否存在异常的每日收益,并找到了前格兰杰导致股价收益超过市场指数收益的证据,而几乎没有证据表明存在相反的因果关系。

12
mingdashike22 在职认证  发表于 2022-5-7 06:08:34
至于社交网络和微博平台[37],Twitter数据正成为越来越流行的财务预测选择。例如,一些人调查了每日推文数量是否能预测标准普尔500指数的股价[38,39]。对Twitter数据的文本分析方法可以在其他著作[14,40,41,42,43]中找到,作者在这些著作中发现了情绪指标和道琼斯工业平均指数之间的关系。其他一些作者使用新闻、维基百科数据或搜索趋势来预测市场走势[26,44,45,46]。上述分析主要有两个关键方面。首先,所有搜索引擎或社交网络用户的范围可能太大,真正对财务感兴趣的用户比例可能很低。本文研究的日内频率尤其如此。第二,正如我们将在下面以实证方式展示的那样,就其作为未来价格变动信号的相关性而言,所考虑的新闻领域是非常异质的。例如,一天中可能会有几条正面但几乎不相关的新闻,一家公司只有一条负面但非常重要的新闻。如果不权衡新闻的相关性,很容易得出错误的结论。目前这项工作背后的直觉是,用户浏览新闻的次数是衡量新闻重要性以及它所传达的惊喜的一个指标。此外,我们所考虑的用户并不是普通用户,而是那些使用最重要的新闻和搜索门户网站之一获取财务信息的用户,即雅虎!资金Spearman相关性为了克服这些局限性,我们收集了每个股票和每个时间尺度的六个时间序列,即V、R、σ、C、S和WS,并利用两种工具研究它们的相关性。

13
kedemingshi 在职认证  发表于 2022-5-7 06:08:36
首先,给定两个时间序列Xt和Yt,我们考虑皮尔曼相关系数ρ(X,Y)=hrXtrYti- hrXtihrYtip(hrXti- hrXti)(hrYti)- hrYti)(1)其中Rxt和Ryt分别对应于X和Y随机变量的第t次实现的秩,h·i是时间平均值。相关性ρ(X,Y)量化了线性同期相关性,而不依赖于X和Y的正常假设。为了评估测量值的统计意义,我们通过随机时间序列对相关性为零的零假设进行统计检验。格兰杰因果关系你的主要目标是测试变量之间是否存在统计因果关系。为此,我们的第二个工具是格兰杰因果检验[47]。格兰杰检验是时间序列分析中常用的检验方法,用于确定时间序列XT是否有助于预测其他时间序列Yt。XT被称为格兰杰原因YTF YTF可以更好地预测使用XT和Yt的历史,而不仅仅是使用Yt的历史。格兰杰因果关系可以通过将Y回归到其自身的时滞值和Xt来评估。然后使用F检验来检验是否可以在给定的置信水平下(本文中我们使用5%的p值)拒绝由XT引起的YIS notGranger无效假设。结果我们分析的最重要方面是测试一个人是否可以通过用户浏览活动的信息来预测财务变量,以及更具体的价格回报。也就是说,如果通过将点击新闻的情绪与每个新闻收到的点击次数加权,可以显著提高回报的可预测性。异质性注意力第一个观察结果是雅虎用户注意力的极端异质性!金融节目,针对特定公司的财务新闻。

14
kedemingshi 在职认证  发表于 2022-5-7 06:08:40
图1显示了每个新闻点击次数的累积分布函数0 5 10log10C的组成-7.5-5.-2.50log10(1)- cdf)AAPLGOOGMGSFTGSBACJPMMSBACFB100股票~ C-0.98±0.01图1:新闻数量最多的十种资产和100只股票的总投资组合的clicksa新闻接收数量的累积分布函数的互补。这两个坐标都已通过一个公共因子重新缩放,该因子表示右尾翼的幂律缩放,并将最大点击次数标准化为10。虚线对应于投资组合时间序列的尾部指数的幂律。我们在材料部分提供了所有公司的标准误差和尾部指数完整列表的详细信息。关于给定的股票。在这里,我们展示了前10名股票中的每只股票以及100只股票的总和的曲线。在所有情况下,分布的尾部都非常符合幂律行为[48],尾部指数非常接近1(见材料部分)。事实上,所有股票的平均指数为1.15±0.30,前10名的平均指数为0。99 ± 0.08. 这表明,新用户收到的点击量存在巨大的异质性,因此用户对它的重视程度也存在巨大的异质性。这也是一个警告,如果不恰当地衡量新闻的重要性,可能会导致夸大许多不相关新闻的重要性,而低估少数真正重要新闻的重要性。同步相关性为了理解财务变量和新闻变量之间的关系如何依赖于时间尺度,我们进行了同步相关性分析。对于100家公司中的每一家,我们计算了一个“新闻”时间序列和一个“金融”时间序列产生的三个敏感指数之间的斯皮尔曼相关系数ρ。图2总结了65分钟时间序列的结果。

15
能者818 在职认证  发表于 2022-5-7 06:08:43
x轴列出了公司,由一个数字唯一标识,该数字按照从最小到最大的顺序提供公司排名(以相关新闻的绝对数量衡量)。因此,1对应于KBH公司的新闻数量最少,而100对应于被引用最多的AAPL。我们用对(C,V),(C,σ)和(W,S,R)来标记y轴,而色标指示相关程度。我们计算原始时间ρ(C,V)ρ(C,σ)ρ(ws,R)110203040506070901000公司标识的相关采样。000.250.50图2:100家公司按小时计算的非季节性时间序列的斯皮尔曼相关系数。x轴报告了由一个编号识别的公司列表,详见正文。在几种可能性中,我们只考虑了三对,色阶对应于相关程度。我们绘制了那些我们在5%显著水平上拒绝零相关性的值,并将非显著值限定为零(浅绿色)。表1:我们在5%的置信水平上拒绝零相关性的无效假设的公司百分比。时间间隔(分钟)ρ(W S,R)ρ(C,σ)ρ(C,V)每65分钟1 7 86 9510 3 72 9030 5 54 8565 4 36 79130 4 26 76系列,等于那些其显著性不会以5%置信度拒绝零相关性的零假设的值。图2显示了浏览活动与价格波动性和交易量之间的正相关性和显著相关性,而情绪时间序列和价格回报之间的线性依赖性的证据是温和的,类似于Mao[14]得出的结果。在表1的第四行中,我们报告了我们在5%置信水平下拒绝零相关性假设的100家公司的百分比。

16
kedemingshi 在职认证  发表于 2022-5-7 06:08:46
由于我们使用多重相关测试来确定关键新闻和在线数量与关键市场变量之间是否存在显著关系,因此在材料部分,我们报告了针对多重假设测试校正的结果。应用Bonferroni提出的保守修正,点击率、波动率和交易量时间序列的线性相关性证据确凿存在,而价格回报和加权情绪之间零Spearman相关性的假设不再被拒绝。时间尺度为了研究相关性如何随时间尺度变化,在表1中,我们还显示了1、10、30和130分钟时间尺度的拒绝百分比。正如ageneral评论所述,我们观察到,具有显著相关性的公司数量随着时间的推移而增加。这是市场变量(如成交量和波动性)的已知事实,而我们首次以日内规模记录了这一事实,也记录了浏览变量。与给定股票相关的新闻文章关注度(根据文章中表达的情绪签署)与价格回报之间存在显著的线性关系。尤其是,拒绝零假设的公司比例较低,这与由于多次测试而产生的预期假阳性数量相符。关于基于Bonferroni校正的多次试验的详细结果,请参考材料部分。注意力的动态时间尺度原则上可能取决于新闻的相关性。正如我们所看到的,并不是所有的新闻都能从用户那里获得同等的关注。为了研究这种依赖性,我们研究了一篇文章发表后点击次数的动态变化。我们计算一条新闻在发布后一分钟内收到的累计点击次数。

17
mingdashike22 在职认证  发表于 2022-5-7 06:08:49
在出版后的一周内,我们会持续几分钟。然后,我们通过将累积时间序列除以新闻收到的点击总量来对其进行标准化。我们根据他们最终收到的新闻总数的十分位数来构建十组新闻,并计算每个组的平均累计点击量。结果如图3所示。插图100 200 300t(分钟)00.250.5十进制1ST2ND3RD4TH5TH6TH7TH8TH9TH10TH6090120τ(分钟)图3:发布后五小时内每条新闻累计点击次数的时间演变。我们将累计量标准化为一个常数,该常数对应于一条新闻在发布后的第一周内收到的点击总数。根据截至2013年10月的点击总数,新闻以十分位数进行分组,曲线代表平均值。插图:通过十分位曲线的指数拟合得到的注意力时间尺度的估计值和标准误差。报告每十分之一的典型注意时间尺度,该时间尺度由曲线的指数函数获得。值得注意的是,注意力的时间尺度是新闻重要性的一个不断增长的函数(以点击总数衡量)。不相关的新闻会立即被视为重要新闻,而重要新闻在发布后会继续受到关注。一般来说,用户注意力的时间尺度在发布后的一到两个小时之间,这表明这种日间时间尺度可能最适合检测财务变量和浏览活动之间的依赖关系。因果关系同步相关性是衡量依赖性的重要指标,但不一定是因果关系的标志。因此,我们应用格兰杰检验进行因果关系分析。

18
何人来此 在职认证  发表于 2022-5-7 06:08:53
我们在图4中展示了65分钟时间范围内的分析结果。xC→ VV→ 科科斯群岛→ σσ → CW S→ RR→ W SS→ RR→ S1 10 20 30 40 50 60 70 80 90 100公司识别图4:非季节性时间序列之间的每小时格兰杰因果关系测试(xaxis如图2所示)。白细胞对应于我们不拒绝在5%显著水平上无格兰杰因果关系的完整假设的测试。黑色单元格对应于具有统计学意义的格兰杰因果关系。axis列出了如图2所示的公司,而y轴标记了我们执行的八个测试。黑细胞对应于拒绝无格兰杰因果关系的零假设,而白细胞则相反。在考虑非负变量(V、C和σ)时,我们观察到了很强的因果关系。具体而言,在65%的情况下,点击活动会导致交易量,在69%的情况下,点击活动会导致价格波动。相反方向的因果关系也很强,即成交量和波动性因果成交量。这可能部分是由于用户对市场异常活跃的反应(就交易量和/或波动性而言),而部分可能是统计影响,因为所有三个变量在一段时间内都是非常自相关的,在两个方向上都产生了强格兰杰因果关系。当考虑有符号变量(R、S和WS)时,我们得到了最有趣和最意想不到的结果。所有这些变量都是弱序列自相关的。当我们考虑新闻的情绪(没有点击)时,我们发现只有4%的情况下S会导致回报,13%的情况下价格回报会导致S。尤其是第一个值预计为空,因为在5%的置信水平下,我们预计会有5%的假阳性。

19
mingdashike22 在职认证  发表于 2022-5-7 06:08:56
这意味着简单的新闻情绪不允许以日内(每小时)时间尺度预测价格回报。相反,当我们考虑受新闻情绪影响的点击时,我们发现在53%的情况下,它允许预测回报,只有19%的情况相反。一般来说,新闻越多的公司因果关系越强。当对多个假设进行校正时,我们的结论甚至更加引人注目,就像对斯皮尔曼相关案例所做的那样。价格回报和新闻未加权情绪之间因果关系的证据几乎消失,而加权情绪和回报之间因果关系的信号仍然存在。有趣的是,相反方向因果关系的证据——即导致加权情绪的格兰杰回报率——减弱了,两个方向之间明显出现了一种有趣的不对称行为。在“材料”部分,我们将详细报告表格结果。根据用户的浏览行为对新闻进行加权这些结果表明,在每小时的时间尺度上,简单的新闻情绪时间序列(即没有浏览活动的时间序列)无法预测价格回报;相反,如果我们添加浏览活动提供的信息,我们就能够通过用户点击页面对新闻的重视程度来正确衡量新闻(及其情绪)。因此,我们发现一个有趣的结果,即浏览活动与新闻情绪分析相结合,显著提高了股票价格回报预测水平。与现有文献相比,关于情绪和收益可预测性的现有研究大多集中在每日或更长时间尺度上。为了将我们的结果与现有文献进行适当的比较,我们在表2中给出了上述格兰杰测试在每日时间尺度上的结果。

20
mingdashike22 在职认证  发表于 2022-5-7 06:08:59
表2显示,在没有浏览活动的情况下,18%的公司是S导致S,9%的公司是RGranger导致S。因此,即使公司数量非常有限,人们的情绪现在也有一定的可预测性。这与现有文献一致,该文献报告了利用情绪对收益的弱每日可预测性。值得注意的是,通过添加浏览活动,我们可以将可预测的公司数量增加一倍。事实上,W S Granger导致37%的公司出现R,11%的公司出现相反的情况。表2:我们在5%置信水平下拒绝无格兰杰因果关系的无效假设的公司数量。因果关系小时刻度日刻度→ R 4 18R→ S 13 9R→ W S 19 11 W S→ R 53 37V→ C 100 97C→ V 65 52C→ σ 69 52σ → C 96 162材料2。1金融时间系列我们只考虑交易时间(即上午9:30至下午4:00)和交易日(即纽约证券交易所的营业日),我们不考虑在此时间窗口外发生的交易事件。根据财务数据,我们创建了三个时间序列:第一个是每家公司每分钟的交易量,第二个是对数回报,最后一个时间序列是对数回报的绝对值。1.交易量(V)时间序列。它由给定公司的交易量以分钟为单位组成。我们通过将交易量vτ与最小时间尺度τ(在我们的例子中为一分钟)相加,以时间尺度t构建时间序列。然后,总体积vt可定义如下:vt=tXτ>t-1vτ。(2) 日内时间t的交易量通过因子ζvt进行重新调整,该因子被计算为时间t的交易量在所有天数内的平均值,该平均值由每日总交易量标准化。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-30 03:09