楼主: mingdashike22
1178 29

[量化金融] 情绪驱动的随机波动率模型:高频文本 [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-6-24 01:33:53
,(Xn,yn)带Xj∈ RPA和yj∈{-1,0,1}表示情感类,通过正则化训练误差n校准线性评分函数s(X)=ω>X+b-1nXj=1L{yj,s(X)}+λR(ω)(1),其中n是文档中的句子数,L(·)作为损失函数,R(·)作为正则化项,惩罚λ≥ Xjis是由单词向量组成的第j个句子;yjis是对应的语义方向,注释者将其标记为-1(负)、0(中性)或1(正)。(1)中的第一项表示我们旨在最小化的训练误差,而第二项控制模型集的复杂性,通常称为正则化器。如果采用高容量的函数集,则产生的训练误差较小,但可能出现过拟合问题。同样,当使用更简单的正则化器时,往往会发生更大的训练错误。我们应用了不同的损失函数。就SVM而言,可以使用铰链损失SL{y,s(X)}=max{0,1- s(X)y}(2)或逻辑似然L(u)=exp(-u) /{1+经验(-u) }。最小二乘法损失L(u)=uleads到众所周知的岭回归。作为正则化项,可以使用LnormR(ω)=p-1Ppj=1ωjor形式R(ω)=Ppj=1 |ωj |,给定校准任务为套索类型扭曲。2.2.2金融短语库作为培训数据集Malo等人(2014)构建的人工注释金融短语库可用于培训和评估金融和经济新闻文本的替代模型。有了这些训练数据,我们可以校准(1)中的评分函数s(X)。校准方法基于随机梯度下降法,用于最小化(1)中的损失函数,该损失函数写为可微分函数之和。

12
可人4 在职认证  发表于 2022-6-24 01:33:56
通过5次交叉验证,将数据集划分为5个互补子集,优化了正则化参数。然后将这5个子集中的4个进行组合,以构建训练数据集。综上所述,我们运行了预测模型,并通过采用铰链损耗、Lpenalty和λ=0.0001,获得了该技术方面的最佳模型精度。该训练数据集的平均准确率为82%,而LM词汇投影的准确率仅为64%。Adeeper分析表明,LM比SVM方法产生更多的误报。关于语义定向的准确性,我们决定在整个研究过程中坚持使用SVM方法量化的情感。因此,我们得到一个巨大的向量^ω,该向量进入训练函数s(X),该函数现在应用于纳斯达克数据集。通过SVMAP方法对句子(Yj=-1、0或1)进行分类,我们遵循Antweiler和Frank(2004)的方法,将句子层面的消极情绪和积极情绪结合到文档层面的总体情绪得分中:Bi,t=log(1+n-1nXj=1I(^yj=1))- 对数(1+n-1nXj=1I(^yj=-1) )(3)其中n是文档中的句子数,j是句子索引,^yjis是SVM分类器对情感类的估计。Bi,是第i篇新闻文章在日内时间间隔t上的情绪得分。如果文本的极性为负,可以很容易地观察到Bi,t<0成立,而Bi,t=0表示中性,Bi,t>0表示正极。因此,我们获得了每个文档的Bi、TF以及样本期的每个日内间隔。

13
何人来此 在职认证  发表于 2022-6-24 01:33:59
然后,我们在第t个区间内平均情绪得分Bi,2,得出Bt.2.2.3日内情绪得分。我们继续使用SVM分类器量化(3)中定义的情绪得分,2012年1月3日至2017年1月1日期间纳斯达克新闻平台上发布的所有541750条新闻的值介于-1和+1之间。此外,我们通过每隔15分钟平均每15分钟发布的单个新闻的情绪得分来计算总情绪得分。假设每个交易日间隔15分钟,我们获得了每个交易日东部时间上午09:30至下午04:00的26个情绪得分。图2:2015年发布的日内新闻量和情绪浮出水面作为一个示例,我们描述了跨交易小时和一段时间的文章量,并将其显示在图2的左面板中。市场开盘后,大量的新闻纷至沓来。在开盘前,已发表文章的数量一直在增加,而午餐后,数量有所下降,收盘前略有反弹。有趣的是,图2右面板中描述的新闻基调在市场开放时相当积极。情绪得分捕捉到的新闻基调随着交易时间的推移而变化,在市场收盘时变得乐观。投资研究公司和新闻媒体似乎倾向于在市场开放时以积极的语气发布新闻,这可能被解释为一种用于激励买方交易的策略。或者,记者们只是在一天的开始就很乐观。在收盘时观察到的积极音调传达了类似的信号。

14
mingdashike22 在职认证  发表于 2022-6-24 01:34:02
通过这种方式,他们安慰投资者保持隔夜持仓。对U的另一种解释- 在交易时间内,类似形状的情绪得分是,积极消息基本上占多数,占近70%,导致市场开盘和收盘时出现“可见”的乐观情绪。图3通过交易时间内的情绪平均值补充了之前的三维图,确定了美国- 形状图3:日内新闻量和情绪面3情绪驱动的随机波动率模型3.1随机情绪过程新闻随机到达,其量化内容新闻情绪可能表现为布朗运动过程。然而,由于媒体的竞争,夸张的标题如今变得流行起来。考虑到现在以传统方式或在线方式提供的大量媒体,为了争夺关注,记者们经常借助耸人听闻的头条新闻来瞄准不同的受众群体。特别是,一旦记者掌握了第一手新闻,有趣的头条新闻和可能夸大的新闻内容可能会大量涌现。随着更多信息的到来,以下消息可能会平衡夸大的消息。另一个主题是,新闻,尤其是坏消息传播缓慢(Hong et al.,2000),这是连续信息到达、可用信息稀缺或战略性缓解过度反应的结果。随着媒体之间的竞争,新闻情绪将自我纠正,直到达到相对合理的水平。基于这一机制,我们假设新闻情绪表现为均值回复(Ornstein-Uhlenbeck)随机过程:dSt=λS(uS- St)dt+σSdWs,t(4),其中uS是新闻情绪的长期平均水平,λS代表平均值逆转的速度,dWs是带有扩散参数σS的随机创新项。λSis值越小,偏离平均值的时间越长。

15
能者818 在职认证  发表于 2022-6-24 01:34:05
因此,新闻情绪(以下简称情绪)可能呈现出一些可预测的周期性。(4) 意味着随机情绪的增量可以由两部分组成,漂移项中的可预测部分和差异项中的不可预测部分。这里,STI通过第2.2节中介绍的文本分析进行量化,新闻按15分钟的间隔进行分组。3.2情绪、价格和波动性的共同演变过程夸大或低估的新闻情绪可能触发投资者的动物精神,从而对价格和波动性动态产生后续影响(Tetlock,2007)。正如Andersen等人(2002)指出的那样,经典的连续时间模型无法充分解释股票价格的潜在动态演化。虽然越来越多的文献证实了新闻和后续情绪行为对资产定价和波动性的作用,但一个可能的改进是量化新闻过程,并将其纳入价格和波动性过程。基于这些目标,我们致力于接近现实的规范。到目前为止,在实证研究中,情绪对回报率和波动率的影响是单独探讨的,文献中尚未在一个统一的框架中进行阐述。传统的连续时间股票收益模型强调波动性在价格过程中的“风险收益交易假设”中的作用。然而,波动性是潜在的,需要选择代理(Andersen et al.,2002)。鉴于新闻和情绪推动了当前文献中呈现的金融市场(Zhang et al。

16
何人来此 在职认证  发表于 2022-6-24 01:34:08
(2016)),我们的目标是提出一个持续的时间框架,其中情绪将推动波动和回报。让Pt表示时间-时间对数资产价格,我们提出了情绪驱动的随机波动率(SSV)模型,并假设瞬时收益率、波动率和情绪的以下动力学:dSt=λs(us- St)dt+σsdWs,tdPt=(up- exp(Vt)/2)dt+exp(Vt/2)dWp,tdVt=(uv+βv(St- us)- γvVt)dt+σvdWv,t(5),corr(dWp,t,dWv,t)=ρpv,corr(dWs,t,dWv,t)=ρsv。根据经验,两个独立布朗运动ρp,v之间的相关性为负,这就是所谓的连续时间杠杆效应。基于Andersen et al.(2002)使用的一个规范,我们通过参数βv进一步将平均调整后的情绪与波动性联系起来。此外,情绪过程同时进入价格和波动性过程,并预测瞬时回报和波动性的动态。γvde定义了恢复到平均水平的速度,而恢复到平均水平的阈值受情绪影响。当情绪存在正值或负值时,波动率只有在超过长期平均水平uv和情绪相关成分βv(St- us)如果βvcoe系数显著为正。它可以捕捉到情绪成分导致的反转断点上升所导致的极端波动。此外,恢复到平均水平的速度可能取决于情绪的存在。

17
能者818 在职认证  发表于 2022-6-24 01:34:12
可以理解,当市场上连续出现新闻/情绪时,波动性可能表现得非常持久,Antweiler和Frank(2004)对此进行了经验记录。4情绪和波动性:矩、共矩和相关性在本节中,我们研究了拟议过程的理论性质,并提供了情绪和波动性矩和共矩的封闭式公式。这些见解对于进一步的应用非常重要,因为它使我们能够从理论和分析上衡量情绪如何影响波动性。一般的计算策略是从过程的随机演化中确定E[StVt],E[St],E[St],E[Vt],E[Vt]。这导致公式看起来很复杂,但它是以封闭形式存在的。我们证明了在某些条件下,该过程的矩性质将退化为SV模型的方差过程。我们将结果收集在下面的定理和性质中,并将证明放在附录8中。在介绍所提出模型的定理之前,我们简要描述了如何使用必要命题作为获得所需定理的手段的细节。由于定理的证明需要计算过程的矩,因此我们阐述了命题4.1–4.4。我们从情绪过程的时刻开始,St.Proposition 4.1。流程的前两个时刻由【St】=e给出-λstS+us[1- e-λst],(6)andE[st]=σs2λs·[1- e-2λst)+(E[st])。(7) 由于计算涉及过程VT的期望值还需要了解St的第三和第四时刻,让我们在这里列出它们。E【St】=E【St】·(东[西])+3·(东[西])- (E【St】)(8) E[St]=(E[St])+6·(E[St])·(E[St]- (东[圣])+3·(东[圣]- (E【St】)(9)这源自过程St的正态性。

18
可人4 在职认证  发表于 2022-6-24 01:34:16
定义了St时刻后,我们描述了过程Vt.命题4.2的第一和第二时刻。VTI的第一个时刻由[Vt]=e给出-γvt·V+中兴γV(u-t) huv+βvE[苏]- 2usE[Su]+usidu。(10) 注意,在βv=0的情况下,我们得到的方差过程的平均水平退化到Heston(1993)的情况。非零正βv>0增加了波动率的平均值。因此,这一额外引入的情绪过程增加了波动性,动荡市场的更高波动性可以用大量夸大的消息来解释。命题4.3和4.4进一步描述了立姿Vt过程的关系以及Vt的二阶矩。命题4.3。期望值E【StVt】由【StVt】=E给出-(γv+λs)t·SV+Zte(γv+λs)(u-t) λsusE[Vu]+σsσvρsv+[uv+βvus]E[Su]- 2[βvus]E[Su]+βvE[Su]!杜。(11) 提案4.4。Vtis的第二个力矩由【Vt】=e给出-2γvt·V+Zte2γV(u-t) huv+βvusiE[Vu]- 4βvusE[SuVu]+2βvE[SuVu]+σv!杜。(12) 情绪对这些数量的影响是非常重要的,并且取决于其他参数。然而,通过对特定参数和其他参数进行微调,我们可能会对这些命题产生进一步的影响。在命题4.3中,假设所有其他参数都是固定的,则较高的ρvs将反映在(11)中的E【StVt】以及(19)中产生的相关性ρ(St,Vt)。回想一下,ρvsmeasures测量驱动情绪和波动过程的两个独立布朗运动之间的瞬时相关性。定理4.7中记录的E[StVt]的符号及其相关性取决于ρvs的值。同样,在命题4.2中,E[Vt]的值受βv的控制。就βv的存在而言,恢复到平均挥发水平的阈值升高,导致更高的平均水平。注意,命题4.4要求了解在以下引理中确定的E[StVt]。引理4.5。

19
能者818 在职认证  发表于 2022-6-24 01:34:19
E[StVt]的期望值由[StVt]=E给出-(γv+2λs)t·SV+Zte(γv+2λs)(u-t) 2σvσsρsvE[Su]+[uv+βvus]E[Su]- 2usβvE[Su]+βvE[Su]+2λsusE[SuVu]+σsE[Vu]!杜。(13) 定理4.6。期望值E【St】、E【Vt】、方差Var(St)、Var(Vt)和协方差Cov(St,Vt)由以下公式给出:E【St】=E-λstS+uSeλst- 1.(14) (15)E【Vt】=E-(γv+2λs)t2γvλs(γv- 2λs)·“βvγveγvt2λsus+2λsS- 4λsusS- σs- 2λse2λstβvγvus- βvσs+γvuv- 2λsuv+βvγvS- 2βvγvusS- γvV(γv- 2λs)+ (γv- 2λs)e(γv+2λs)tβvσs+2λsuv#Var(St)=σse-2λste2λst- 1.2λs(16)(17)Var(Vt)=e-2(γv+2λs)t2γvλs(γv- 2λs)(γv- λs)(2γv- λs)(γv+λs)(γv+2λs)·“-a+b- c- d+e+f#(18)Cov(St,Vt)=σse-(γv+3λs)tγvλs(γv- 2λs)(γv+λs)·“βvσsγv- γvλs- 2λs(S)- us)e(γv+2λs)t+λse2λst(-2βvusσs(γv+λs)- γvρsvσv(γv- 2λs)+2βvSσs(γv+λs))- βvγvσs(γv+λs)(s- us)eγvt+γvλsρsvσv(γv- 2λs)e(γv+3λs)t#其中附录(8)中给出了a、b、c、d、e和f。最后,利用过程的导出矩和共矩,我们可以计算它们的相关性。定理4.7。相关系数ρ(St,Vt)由ρ(St,Vt)=E【StVt】给出- E【St】·E【Vt】qE【St】- (E【St】·qE【Vt】- (E【Vt】,(19)其中输入该公式的期望值在命题4.1-4.4中确定。请注意,由于所有被积函数都是简单的指数,因此本节中的所有积分都具有解析形式。请注意,情绪对情绪和波动性之间的相关性的影响是非常重要的,并且取决于所选的参数。由于上述分析形式很复杂,无法直接显示情感的影响,因此我们想用随后根据实际数据估计的参数来说明。图4说明了情绪对波动性的影响。我们将这两个过程与图4:情绪对波动性的影响进行了比较。

20
何人来此 在职认证  发表于 2022-6-24 01:34:23
(5)中βv=0的波动过程的前两个时刻以灰色显示,βv>0以黑色显示。相同的参数,但βv固定为零以示说明。图4表明,正贝塔系数增加了价格过程的波动性及其方差(所谓的波动性波动性)。5基于经验数据的模拟估计由于似然函数的未知封闭形式表示,情绪驱动随机波动率模型的估计具有挑战性,因此需要一个更通用的计算框架来验证SSV模型。因此,我们选择Kristensen和Shin(2012)提出的非参数模拟最大似然估计(NPSMLE),以在类似情况下持续有效地恢复参数。在本节中,我们将(3)中提出的SSV模型的框架离散化,并应用构成一般SSV模型的适当估计的NPSMLE。5.1 NPSML假设过程(yt,xt),yt∈ R、 xt公司∈ χt,我们希望条件密度pt(y | x;θ)基于它们之间的参数模型,θ作为参数集:yt=qt(xt,εt;θ),t=1,T(20),其中ε是具有已知分布Fε的i.i.d序列。X通常是外生解释变量或滞后因变量yt。以几个外生或标记的因变量为条件的YT密度可能无法保证封闭形式的表示,或者其本身甚至可能是未知的,类似于我们的情况。Kristensen和Shin(2012)提出了一种通过模拟近似条件密度的一般估计方法。通过生成N,可以实现条件密度pt(y | x;θ)的模拟版本∈ i、 i.d从预先定义的模型中提取,因此产生yθt,i其中i=1,N、 这些N个模拟i.i.d随机变量{yθt,i}Ni=1,遵循目标分布:yθt,i~ pt(y | x;θ)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 06:51