楼主: nandehutu2022
1537 14

[量化金融] 基于BERT的金融情绪指数和基于LSTM的股票收益率 [推广有奖]

11
可人4 在职认证  发表于 2022-6-24 05:30:48
因此,我们倾向于将从社交媒体中提取的情绪解释为独立投资者的情绪,而将风险中性偏态的所有细节和用于构建期权隐含情绪指数和市场隐含情绪指数的选定市场特征分别处理在我们的补充材料中。这里还提供了一些图解。期权——隐含在机构投资者对市场的态度上。我们预计这两者会有显著的不同。最后,由于整体市场由个人和机构组成,因此市场类型代理可以解释为对整体市场的情绪。为了更全面地了解金融情绪,自然要同时考虑所有三个渠道。作为整体情绪指数的等权和是最简单的,但可能会导致信息损失,因为这三个指数并非完全相互独立,如表2后面给出的相关计算所示。在解决可预测性问题时,VAR可以确定这三个指数的另一种可能的线性组合。然而,最有趣的混合物可能是通过神经网络的非线性形式,这将在下一节进一步讨论。4情绪指数对股票回报的可预测性关于如何预测未来股票回报的调查需要更好的时间序列分析工具,而且仍然具有挑战性。Verma和Soydeimir(2009)通过向量自回归(VAR)作为计量经济学的基本模型,研究了投资者情绪的预测能力,以及存在其他基本市场因素,如Fama-French-thr-e因素(见Fama和French,1993)。VAR虽然简单明了,但只捕捉不同时间序列数据之间的线性关系。

12
可人4 在职认证  发表于 2022-6-24 05:30:51
在本文中,我们建议使用长-短期记忆(LSTM)模型来分析不同情绪指数对股票回报的预测性,因为它可以捕捉到传统VAR无法包含的非线性特征。我们的测试结果表明,就较低的均方误差而言,LSTModel每年都会输出rforms VAR。4.1基本统计下表总结了每个股票的三个不同情绪指数中任意两个数量之间的相关系数。我们还对t时刻的股票收益率为t+1、rit+1的股票指数进行了类似的分析。表2:每只股票两个数量之间的相关系数,其中BSII代表股票i基于伯特的情绪指数,OSIIF代表期权隐含情绪指数,MSIIF代表市场隐含情绪指数;rit+1表示t+1时的股票回报率。股票i腾讯(0700.HK)、建行(0939.HK)、平安(2318.HK)各股票不同情绪指数之间的相关性BSIIV。s、 OSIi0.0347-0.0026-0.0448BSIiv。s、 M SIi-0.3442 0.1944 0.2024OSIV。s、 M SIi-0.1776 0.1463 0.0116今天的情绪指数和明天的股票回报之间的相关性BSIITV。s、 rit+1-0.0205-0.0387 0.0710OSIitv。s、 rit+1-0.0052-0.0094-0.0327M SIitv。s、 rit+1-0.0304-0.0068 0.0337从表2中我们可以看出,在单个库存水平的不同数量之间不存在持久的线性关系。例如,当我们将BSII与MSIi进行比较时,它可能与不同股票之间存在正相关或负相关,尽管在数量上相对较强。对于某个个体,不同情绪指数对之间的关系看起来很接近。

13
kedemingshi 在职认证  发表于 2022-6-24 05:30:54
作为简单的预测能力检验,所有相关系数的值似乎都很低,这可能表明情绪对未来股票回报率有隐藏的非线性影响。4.2情绪指数对股票回报的可预测性在本小节中,我们检验了基于伯特的金融情绪指数和其他两个指数是否能够预测市场,尤其是在其他经典风险因素的影响下预测未来的股票回报,这些因素已被证明对股票具有定价能力。继Verma和Soydemir(2009)的工作之后,我们选择了八个重要因素作为控制变量,包括一个月利率(r)、由三个月和一个月内息差确定的经济风险溢价(r- r) ,通货膨胀率(Inf),过去12个月内的赢股投资组合回报率减去亏损股(UMD),香港元(HKD)的货币汇率,以及法兰西三个因素:超额市场投资组合回报率(rm- r) ,小型公司的投资组合回报率减去大型公司(SM B),高市值公司的投资组合回报率减去低账面市值公司(HML)。我们的实验时间为2016年1月1日至2018年12月31日。个人股票回报率由其对数回报率确定,即rit=对数(Sit/Sit-1) 其中,SITI是时间t时股票i的价格。所有时间序列数据均未标准化为均值0和方差1.4.2.1 VAR和LSTM模型。我们首先将VAR用作传统的时间序列分析工具,以调查该预期对未来股票收益的可预测性。

14
能者818 在职认证  发表于 2022-6-24 05:30:57
更准确地说,我们考虑以下模型,Yit=Ai+lXs=1BisYit-s+it(2)式中,Yitis是stoc k i的列向量,由我们认为可能具有跨时间关系的变量组成(在我们的案例中,它包含股票回报和上述风险因素的不同情绪指标),ais是一个时不变常数项,l 是向后看长度(此处设置为2),考虑到感知的可能时滞效应,Bis是s-滞后向量Yit的系数矩阵-s、 是误差项。注:t(2)可以用非常规线性回归公式Yitm=aim表示+lXs=1NiXn=1bisnyi(t-s) n+itm,(3)其中Yitm是股票i的Yit(即我们将预测的股票回报)的集中成分,而Yit(t-s) nis-Ni维向量Yit的第n个分量-swith对应的gcoef有效bisn。尽管VAR总是作为金融中的基准预测模型,但它需要强大的模型假设,如高斯白噪声和预定变量的依赖性。我们强调VAR是一个线性预测模型,如(3)所示。我们现在采用LSTM作为一种强大的机器学习方法,在不假设任何噪声形式的情况下,根据过去的信息预测未来。最重要的是,LSTM可以捕获时间序列背后可能的非线性特征。我们的LSTM模型的超参数包括层数L和训练次数E。此外,我们保持相同的最大时滞l 并将隐藏大小设置为上述VAR的独立t变量的samenumber,以便进行适当的比较。

15
nandehutu2022 在职认证  发表于 2022-6-24 05:31:00
注意,由于线性结构实际上是feedfor ward神经网络的特例,当配备线性变压器时,人们应该期望LSTM的表现至少与VAR.4.2.2可预测性测试结果一样好。在我们对每个股票收益预测的实验中,日历年内的日期被随机分配到训练集dit和测试集Dite,比例分别为80%和20%,对于平行拟合的VAR和LSTM模型而言,这是共享的。即,sto ckreturn RIT使t∈ Ditras输出以及情绪指数和timet的所有其他因素- 2和t- 1作为用于记录模式ls的输入,我们选择不仅报告Ditras上的均方误差(MSE),还报告Ditras上的均方误差(MSE)以及全年设置的Diwh。请注意,我们将情绪指数分别输入不同的实验,也将它们一起输入不同的实验,以观察不同情绪来源的组合是否可以进一步增强预测。此外,我们从每年的基础测试开始的原因是,尽管可能会维持一段时间,但对环境的影响不会持续太久。表3列出了三只选定股票的不同情绪指数及其组合(在存在上述其他因素的情况下)在LSTM和VAR(在b racket)模型下的实际股票回报率和在不同日期计算的预测值之间的MSE的年度预测准确度。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 21:28