楼主: 能者818
2159 50

[量化金融] 用于股票短期波动预测的多模态深度学习 [推广有奖]

11
能者818 在职认证  发表于 2022-6-11 08:10:48
此步骤设置曲面形状的初始种子手动过滤掉一些嘈杂的属性值。例如,从Procter&Glamble实体页面,我们能够自动提取dbr:Procter and gamble和dbr:P&G,但必须手动排除异味关联dbr:Female pads和dbr:California Natural。上述步骤的结果是曲面形式wdsc字典。3.3. 股票标题语料库是在股票代码级别上通过从股票档案中收集标题来构建的。此存档文件按日期对标题进行分组,从2007年1月1日开始。每个标题都是指向新闻全文的html链接(<a href>标记),其中锚文本是标题内容,后跟发布时间。例如,2016年12月16日的页面标题为“宝洁任命Nelson Peltz于UTC时间下午5:26加入董事会”。对于使用第3.1小节所述标准选择的50只股票中的每只(5个部门乘以每个部门10只股票),我们检索了2007年1月1日至2017年12月30日期间的所有头条新闻。此过程采取以下步骤:o对于给定的库存代码(sc),检索所有表面形状wdsc。o对于每一天,只存储与wdsc中任何单词匹配的标题内容。对于每个存储的标题,我们还存储时间和时区。o将新闻日期和时间转换为东部夏令时(EDT)。o对新闻发布时间进行分类。我们考虑以下类别集:{上市前、上市期间、上市后、节假日、周末}。在市场期间,包含上午9:30至下午4:00之间的新闻。上午9:30之前上市,下午4:00之后上市。时间类别可防止文本和股价数据之间出现任何不一致。此外,它还可以防止数据泄漏,从而避免不切实际的预测模型性能。

12
大多数88 在职认证  发表于 2022-6-11 08:10:51
一般来说,美国东部夏令时下午4:00后发布的消息会改变市场预期,并使用GARCH(1,1)模型中接近收盘的价格计算回报(见方程式1)。【4】之后,为了应对新闻错位,下午4:00后发布的新闻(市场后)与下一个交易日的市场前新闻(市场前)进行分组。表2显示了每个时间类别每个部门的新闻分布情况。我们可以看到市场开盘前发布的新闻高度集中(平均55%)。相比之下,使用从留言板上汇编的语料库,发现在市场时间内新闻的发生率较高[4]。这种行为表明了交易员的活动。我们的语料库包括金融新闻机构的头条新闻,一个更关注公司事件(如诉讼、并购、研发)和经济新闻的内容(我们的数据集样本见表3)。这些标题大多是事实。另一方面,用户生成的内容,如推特和留言板(如[4,5])往往更加主观。U、 零售额、首次申请失业救济人数和GDPare等美国宏观经济指标大多在上午8:30左右(市场开盘前一小时)发布。这些数字是市场活动的关键驱动因素,因此对纽约证券交易所的时区有着很高的影响,特别是改变时区可以改变原来的新闻日期。新闻报道这些经济报告的特定章节影响了几个股票和行业。另一个促成正常交易时间内新闻高度活跃的因素是公司盈利报告。这些信息很少在交易时间发布。最后,在市场开放之前,新闻机构提供国际市场发展概况,例如亚洲和澳大利亚交易时间内的关键事实。所有这些因素都导致了上市前新闻的高度集中。4.

13
何人来此 在职认证  发表于 2022-6-11 08:10:54
背景本节从回顾GARCH(1,1)模型开始,GARCH(1,1)模型是用于评估我们的神经模型的强大基准。然后,我们回顾了文献中提出的原始数据集,这些数据集经过独立训练并转移到我们的波动率预测模型中。最后,我们回顾了序列建模和注意机制的一般架构。4.1. GARCH模型金融机构使用“风险价值”的概念来衡量其投资组合的预期波动性。波动率预测的广泛计量经济模型是广义自回归条件异方差(GARCH)[33,34]。先前的研究表明,GARCH(1,1)模型很难被击败。例如,[35]将GARCH(1,1)与330个不同的经济波动率模型进行了比较,结果表明,它们并不明显优于GARCH(1,1)。设Pt为一个交易周期结束时的股票价格,收盘收益率Rt给定byrt=ptpt-1.- 1(1)GARCH过程明确建模了资产回报的时变波动性。在GARCH(1,1)规范中,收益序列rt遵循以下过程:rt=u+t(2)t=σtzt(3)σt=a+at型-1+bσt-1(4)式中,u是一个常数(返回漂移),Zt是一系列具有零均值和单位方差的i.i.d.随机变量。值得注意的是,尽管方程式2中描述的条件平均回报率具有恒定值,但条件波动率σ具有时间依赖性,并由方程式31建模。GARCH(p,q)模型根据滞后项p和q的数量进行规定。GARCH(1,1)规定仅考虑一个滞后波动率(p=1)和冲击(q=1)项。4.1.1.

14
能者818 在职认证  发表于 2022-6-11 08:10:57
预测提前一步的预期波动率预测可以从方程4直接计算出来,由et[σT+1]=a+aET给出[] + bET[σT](5)通常,T步预期波动率ET[σT+T]可以很容易地用前一步预期波动率表示。用归纳法很容易证明,任何水平的预测都可以用一步超前预测来表示,并由et[σT+T]给出- σu=(a+b)(t-1)ET[σT+1]- σu(6) 其中σu为无条件波动率:σu=pa/(1)- 一- b) (7)从上面的方程式中,我们可以看到,对于长地平线,即t→ ∞, 方程6中的波动率预测收敛于无条件波动率不等式7。第1节([13、14、15、16、17])中审查的所有工程均考虑GARCH(1,1)基准。然而,考虑到他们的预测范围很长(如四分之一年或一年),使用无条件波动率σuin方程7对模型进行评估。在这项工作中,我们关注短期波动率预测,并使用等式5中的GARCH(1,1)提前一天条件波动率预测来评估我们的模型。4.1.2. EvaluationLetσt+1表示给定时间t的事后“真实”日波动率。可以使用标准均方误差(MSE)和平均绝对误差(MAE)MSE=NNXt=1(Et[σt+1]来评估具有N个日样本的集合的表现- σt+1)(8)MAE=NNXt=1 | Et[σt+1]- σt+1 |(9)此外,在[36]之后,还使用回归系数σt+1=a+bEt[σt+1]+et(10)来评估模型,其中r=1-PNt=1 TPNT=1Et[σt+1]-NPNt=1Et[σt+1](11) 评估GARCH模型的一个挑战是,没有直接观察到X后波动率σt+1。显然,方程式1中的每日回报率(dailyreturns)的平方可以很好地代表事后波动率。然而,平方返回产生非常嘈杂的测量结果。

15
能者818 在职认证  发表于 2022-6-11 08:10:59
这是ZT一词的直接结果,ZT将平方收益与方程3中的潜在波动率因子联系起来。[36]首次提出使用日内价格来估计日后可售性。他们认为,相对于平方日收益率,使用当日价格的波动率估值器是评估GARCH(1,1)模型的正确方法。例如,考虑到德国马克-蒂加什(1,1)模型,RIM从0.047(平方收益)到0.33(日内收益)[36]。4.1.3. 从上一节可以清楚地看出,任何波动率模型评估,使用噪音平方收益作为事后波动率代理,都会导致非常糟糕的表现。因此,高频日内数据是短期波动率绩效评估的基础。然而,日内数据难以获取,成本高昂。幸运的是,有一些统计上有效的每日波动率(daily volatilityestimators)只取决于开盘价、高价、低价和收盘价。这些价格“范围”非常广泛。在本节中,我们将讨论这些估计量。设Ot、Ht、Lt、Ct为资产在第t天的开盘价、高价、低价和收盘价。假设每日价格遵循几何布朗运动,且具有零漂移和恒定的每日波动率σ,Parkinson(1980)推导出FirstDaily波动率估值器σP K,t=lnHtLt公司4 ln(2)(12),代表其价格范围的每日波动率。因此,它包含有关价格路径的信息。考虑到这一特性,预计σP Kis的噪声小于使用平方收益计算的波动率。

16
能者818 在职认证  发表于 2022-6-11 08:11:03
Garman Klass(1980)扩展了帕金森波动率估计器,该估计器包含了关于开盘价(Ot)和收盘价(Ct)的额外信息,定义为σGK,t=lnHtLt公司- (2 ln(2)- 1) ln公司CtOt公司(13) 不同估计值σ的相对噪声可根据其对每日波动率σ的相对效率来衡量,并定义为cσ,σ≡V ar[σ]V ar[cσ](14)日内估计量使用每5分钟采样的价格数据的平方收益计算。其中,V ar[·]是方差运算符。直接从方程3得出,平方返回的效率为1,因此非常嘈杂。【37】报告帕金森(\\σP K,t)波动率估计器的相对效率为4.9,Garman Klass(\\σGK,t)为7.4。此外,所描述的所有估计量都是无偏的。文献中提出了许多日波动率的替代估计量。然而,在[37]中的实验中,Garman-Klass波动率估计器被评为仅基于开盘价、高价、低价和收盘价的最佳波动率估计器。在这项工作中,我们训练我们的模型来预测最先进的GarmanKlass估计量。此外,我们使用第4.1.2小节中描述的计量学,但使用适当的波动性假设,即帕金森和Garman-Klass估计量,评估我们的模型和GARCH(1,1)。4.2. 从其他源域转移学习单词的向量表示,也称为单词嵌入[22,38],将单词表示为密集向量,已成为几乎所有NLP任务的标准构建块。这些嵌入在大型的未标记小体上进行训练,能够捕获单词之间的上下文和相似性。有人尝试使用类似于单词嵌入的无监督方法来学习完整句子的向量表示,而不仅仅是单个单词。

17
mingdashike22 在职认证  发表于 2022-6-11 08:11:06
最近,[18]显示了最先进的性能,当一个句子编码器在受监督的源任务上进行端到端的训练,并转移到其他目标任务时。受这项工作的启发,我们研究了在文本分类和自然语言推理(NLI)任务中训练的句子编码器的性能,并将这些编码器用于我们的主要短期波动性预测任务。通用句子编码器接收句子单词作为输入,并返回表示句子的向量。这可以表示为映射se:RTS×dw→ RdS(15)从可变大小的单词序列到固定大小dS的句子向量S,其中Ts是单词的句子数,Dw是预先训练的单词嵌入维度。在以下部分中,我们将描述用于培训辅助迁移学习任务的句子编码器的数据集和体系结构。4.2.1. 路透社RCV1路透社语料库第一卷(RCV1)收录了从1996年8月20日至1997年8月19日收集的806791篇英语新闻文章。每一条新闻的主题都是使用层次结构进行人类注释的。粗粒度类别位于层次结构的顶部:CCAT(公司)、ECAT(经济)、GCAT(政府)和MCAT(市场)。新文章可以分配给多个类别,这意味着textcategorization任务是多标签的。每条新闻都存储在一个单独的XML文件中。清单1显示了一篇文章的典型结构?xml版本=“1。0“encod i n g=”是o-8859-1” ?><新闻项目i t e m i d=“6159”i d=“r o t”d a te=“1996-08-21“xml:lang=“en”><h e a d l i n e>哥伦比亚r a i s e s i t e r n a l c f e p r i c e。</波哥大,1996年-08-21《1996年限制》中的元数据。

18
mingdashike22 在职认证  发表于 2022-6-11 08:11:08
0“><code code=“C13”><e d i t d e t a i l a t r i b u t i o n=“r e u ters BIP Coding Group”a c t i o n=“confirmed”dat e=“1996-08-21“/>-08-21“/>-08-21“/>-08-21“/>-08-21“/>-08-21“/>代码><c o d e s><元数据><新闻项目>清单1:RCV1数据集文章示例。为简洁起见,我们只显示模型中消耗的标记。本标题包含根类别CCAT(公司/工业)和MCAT(市场),直接子类别为C13(监管/政策)、C31(市场/营销)和M14(商品市场)。最后一类M141(软商品)是M14的子类,描述了商品市场类型。RCV1数据集未随标准序列、验证、测试拆分一起发布。在这项工作中,为了评估的目的,我们将15%的样本分离出来作为测试集。剩下的样品进一步分离,分别留下70%和15%用于培训和验证。关于类别分布,我们发现,从最初的126个类别中,有23个类别从未分配给任何新闻;因此,被忽视。从剩下的103个类别中,我们发现标签之间的高度不平衡,大量代表性不足的类别少于12个样本。

19
可人4 在职认证  发表于 2022-6-11 08:11:12
这些少数民族类别的样本数量非常少,这给区分细粒度类别带来了巨大挑战。为了解决这个问题,我们将第二层次以下的所有类别归为一个类。例如,给定根节点CCAT(公司),我们将C151(账户/收益)、C1511(年度结果)和C152(评论/预测)分组到直接子节点C15(绩效)。使用此程序,原来的103个类别减少到55个。这一过程的好处之一是,代表性较低的类别有大约1000个样本,而原始数据集中只有12个样本。图1显示了端到端文本分类任务的体系结构。在架构的底部,接收单词嵌入并输出一个内容向量S。S向量通过一个完全连接的(FC)层,该层具有输出向量^y的梯形激活函数∈ R每个元件^yj∈ [0, 1].图1:RCV1文本分类体系结构。句子编码器将单词emebddings映射到一个句子向量S,最后一个FC层具有一个sigmoid激活函数。上述体系结构是在假设每个类别都是独立的但不是相互排斥的情况下训练的,因为一个样本可以分配多个类别(多标签分类)。每个样本的损失是所有标签的平均对数损失:L(^y,y)=-Xi=1(yilog(^yi)+(1- yi)日志(1- ^yi))(16)其中指数i覆盖预测向量和真向量的元素。鉴于高类别不平衡,在训练期间,我们监控验证集的FMMetric,并选择具有最高值的模型。4.2.2. SNLI数据集斯坦福自然语言推理(SNLI)数据集【31】由570000对句子组成。

20
能者818 在职认证  发表于 2022-6-11 08:11:14
每一对都有一个前提和一个假设,用三个标签中的一个手动标记:蕴涵、矛盾或中性。SNLI具有许多期望的特性。与RCV1数据集相反,标签是同等平衡的。此外,语言推理是一项复杂的任务,需要对句子含义有更深入的理解,使该数据集适合学习有监督的句子编码器,这些编码器可以很好地推广到其他任务中【18】。表4显示了SNLI数据集句子对及其相应标签的示例。为了学习可以模糊地转移到其他任务的句子编码器,我们考虑一种句子编码器的神经网络架构,前提和假设对之间具有共享参数,如【18】所示。图2描述了神经网络体系结构。在每个前提和假设分别编码到Spand Sh之后,我们就有了一个融合层。该层没有可训练的权重,只是将每个句子嵌入连接起来。在【18】之后,我们又添加了两种匹配方法:绝对差异| Sp- Sh |和元素方面的Sp 最后,为了学习pairrepresentation,将Sph输入到具有校正线性单元(ReLU)激活函数的FC层,该函数表示为f(x)=log(1+ex)。最后一个softmaxlayer输出每个类的概率。图2:自然语言推理任务体系结构。请注意,前提和假设对之间共享内容编码器SEI。Fc层学习句子对的表示,最终Softmaxlayer断言3个可能标签的输出,即。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 17:02