楼主: 能者818
2166 50

[量化金融] 用于股票短期波动预测的多模态深度学习 [推广有奖]

21
nandehutu2022 在职认证  发表于 2022-6-11 08:11:18
[蕴涵,矛盾,中立],和为一。最后,优化NLI分类权重,以最大限度地减少每个样本的分类对数损失(^y,y)=-Xj=1yilog(^yi)(17)在训练期间,我们监控验证集的准确性,并选择具有最高度量值的模型。4.3. 序列模型我们从回顾递归神经网络(RNN)体系结构及其在单词序列编码中的应用开始本节。RNN能够处理可变长度序列,这是其复发细胞的直接结果,其在所有序列元素上共享相同的参数。在这项工作中,我们采用了长-短期记忆(LSTM)单元[39]和遗忘门ft[40]。LSTM细胞被赋予记忆状态,可以根据句子中单词的顺序学习表征。这使得LSTM更加精确地找到了无法使用标准单词袋表示法捕捉到的关系。设x,x,···,xt是一系列长度为T的观测值,其中xt∈ Rdw。一般而言,LSTM小区接收到先前的隐藏状态ht-1与当前观察XT和内存状态CT1组合,以输出新的隐藏状态ht。此内部存储器状态CTI根据其以前的状态和三个调制门(输入、忘记和输出)进行更新。形式上,对于每个步骤t,更新过程如下所示(参见图3的高级示意图):首先,我们计算输入it,忘记ft,并输出otgates:it=σs(Wixt+Uiht-1+bi)(18)ft=σs(Wfxt+Ufht-1+bf)(19)ot=σs(Woxt+UHT-1+bo)(20),其中σ是乙状结肠激活。其次,生成一个候选内存状态:eCt=tanh(Wcxt+Ucht-1+bc)(21)现在我们可以设置最终记忆状态Ct。

22
nandehutu2022 在职认证  发表于 2022-6-11 08:11:21
其值根据等式20的输入和遗忘门进行调制,并由以下公式给出:Ct=iteCt+英尺 计算机断层扫描-1(22)最后,根据等式20的存储状态和输出门,我们得到了输出隐藏状态ht=ot tanh(Ct)(23)关于可训练重量,设n为LSTM单元数。由此可知,a ffne变换的W’s和U’s矩阵分别具有n×dw和n×n维。其偏差项b是大小为n的向量。因此,参数总数为4(ndw+n+n),且不取决于时间步长T的序列号。我们发现,LSTM网络能够捕获任意长度序列的时间依赖性。一个简单的应用是对第4.2小节中讨论的内容编码器建模,该编码器使用其单词作为输入输出一个句子向量表示。给定一系列单词{wt}Tt=1,我们旨在学习单词隐藏状态{ht}Tt=1,使每个单词都能捕捉其过去和未来单词的影响。[41]中提出的双向LSTM(BiLSTM)是一种LSTM,如图3所示:LSTM单元的示意图。观察到的状态XT与先前的内存和隐藏状态相结合,以输出隐藏状态ht。记忆状态CTI是一种内部状态;因此,不是输出表示的一部分。LSTM网络通过在所有序列长度上循环其共享单元来进行训练。“读”一个句子,或一般的任何序列,从开头到结尾(向前),反之亦然(向后)。新状态Ht是串联Ht=[-→ht,←-ht](24)其中-→ht=LSTM(w,···,wT)(25)←-ht=LSTM(wT,···,w)(26)(27)由于句子的长度不同,我们需要将BiLSTM的T串联隐藏状态转换为固定长度的句子表示。一个简单的操作是应用任何形式的池。

23
能者818 在职认证  发表于 2022-6-11 08:11:25
注意机制是另一种方法,其中句子表示为加权平均隐藏状态,其中权重是端到端学习的。在接下来的部分中,我们将描述使用池和注意层的句子编码器。4.3.1. BiLSTM max pooling最大池层旨在提取整个句子中最显著的单词特征。形式上,它输出一个句子向量表示SMP∈ R2nsuch thatSMP=Tmaxt=1ht(28),其中,在等式24中定义了ht,并且在时间步长维度上应用了max运算符。图4说明了BiLSTM最大池(MP)sentenceencoder。在许多NLP研究中评估了最大池层的有效性。[42]在单词表示上使用了最大池层,并认为它比平均池性能更好。文献[18]中的实验结果表明,在三种类型的组合(最大、平均和最后)中,最大组合在将绩效转移到其他任务方面提供了最普遍的句子表示。基于这些研究,在这项工作中,我们选择Bilstmax池作为我们的池层选择。图4:BiLSTM最大池。网络在每个单词隐藏状态的顶部执行轮询操作。4.3.2. 深度学习文献中引入了BiLSTM注意力注意机制,以克服池操作员施加的一些简化。当我们读一个句子时,我们能够在给定的上下文中发现它最相关的部分,而忽略多余或误导性的信息。注意力模型旨在模仿这种行为。针对不同的NLP任务提出了注意层。例如,NLI,前提和假设、问答和机器翻译(MT)之间的交叉关注。

24
nandehutu2022 在职认证  发表于 2022-6-11 08:11:28
具体来说,在机器翻译任务中,目标句子中的每个单词都学习关注源句子的相关单词,以便生成句子翻译。具有注意力(或自我注意)的句子编码器[43、44、45]为句子中自己的单词分配不同的权重;因此,将隐藏状态转换为一个句子向量表示。考虑单词隐藏向量集{h,···,hT},其中hT∈ Rn,“last”轮询是一个简单的操作符,它只需要T hiddenstates的最后一个元素来表示一个句子。注意机制由以下方程式定义:?ht=σ(W ht+b)(29)αt=exp(v |·ht)Ptexp(v·ht)(30)SAw=Xtαtht(31),其中W∈ Rda×n,b∈ Rda×1和v∈ Rda×1是可训练的参数。我们可以看到,句子表示是隐藏状态的加权平均。图5提供了BiLSTM注意的示意图,其中我们可以将方程31中描述的注意解释为一个两层模型,其中有一个致密层(子单元),然后是另一个预测αt(单个单元)的致密层。图5:BiLSTM注意事项。具体示例对语料库中的标题进行了编码。方法学在本节中,我们首先在一个深入的多模式学习框架中介绍我们的问题。然后,我们提出了我们的神经架构,它能够解决新闻相关性和新颖性的问题。最后,我们回顾了用于了解股票之间共性(全局特征)的方法。5.1. 问题陈述我们的问题是预测股票的日波动率。如第4.1.3小节所述,Gaman-Klass估计量σGK,tin方程13是一个非常有效的短期波动率代理,因此,它被用作我们的目标变量。我们的目标是了解次日波动率σt+1与截至第t天的历史多模态数据之间的映射。为此,我们使用窗口大小为t的滑动窗口方法。

25
大多数88 在职认证  发表于 2022-6-11 08:11:31
也就是说,对于每个股票sc,一个样本onday t表示为一系列历史价格psct和主体标题snsct。价格序列是每日价格(DP)的向量,表示为asPsct=DPsct公司-T、 DPsct公司-T+1,···,DPsct(32)其中dpsct是价格特征的向量。为了避免任务特定的功能工程,每日价格功能表示为简单的回报:DPsct=OSCTSCT-1.- 1、HsctCsct-1.- 1,LsctCsct-1.- 1、CSCTSCT-1.- 1.(33)历史语料库标题序列NSCTI表达为NSCT=nsct-T、 nsct-T+1,···,nsct(34)如果nsctis是一组包含影响纪梵迪t市场的所有标题。为了调整价格和新闻模式,我们考虑第3.3小节中讨论的明确调整方法。也就是说,NSCTC在开市前(开市前)、交易时间内(开市期间)和开市后前一天(开市后)包含所有股票标题-1).作为文本预处理步骤,我们将标题标记化,并将每个单词转换为一个整数,该整数表示其各自的预训练单词嵌入。这个过程描述如下:首先,对于我们语料库的所有库存,我们标记每个标题并提取语料库词汇集V。然后我们构建嵌入矩阵Ew∈ R | V |×dw,其中每一行是嵌入向量dwdimensions的单词。跳过没有相应嵌入的单词,即词汇表外的单词。最后,文本模式的输入样本是一个T×ln×lsdimensions的整数张量,其中ln是一天中出现的最大新闻数,lsi是一个语料库句子的最大长度。关于价格模式,我们有一个浮点数的T×4张量。5.2. 全球特征和股票嵌入鉴于每个股票的价格和新闻历史,我们可以直接了解每个股票的任何模型。

26
可人4 在职认证  发表于 2022-6-11 08:11:34
然而,这种方法有两个主要缺点。首先,一只特定股票的市场活动预计会影响其他股票,这是一种被广泛接受的模式,称为“溢出效应”。其次,由于我们的价格数据是每天采样的,因此我们将根据少量样本来训练股票模型。对常见亚蒙族种群建模的一个可能解决方案是特征丰富。例如,在对给定股票X建模时,我们将通过连接股票Y和Z的特征来丰富其新闻和价格特征。虽然特征丰富可以模拟其他股票的影响,但它仍然每天只考虑一个样本。在这项工作中,我们提出了一种学习全局模型的方法。全局模型使用以下方法实现:o多库存批次样本:由于我们的模型是使用随机梯度下降法训练的,因此我们建议在每个小批量迭代中从包含我们库存宇宙中任何库存的批次集中进行采样。因此,波动率和多模态数据之间的映射现在能够了解股票之间的常见解释因素。此外,采用这种方法增加了训练样本的总数,即每只股票样本数的总和股票嵌入:利用上述多个股票批次样本,我们解决了股票之间的共性建模问题。然而,可以合理地假设股票有一部分动力是由特质因素驱动的。然而,我们可以按部门聚合库存,也可以依赖库存之间的任何相似性度量。为了将特定信息整合到每只股票中,我们建议为我们的模型配备“股票嵌入”模式,该模式与价格和新闻模式联合学习。也就是说,我们将区分每个股票的特定动态的任务留给神经网络来学习。

27
kedemingshi 在职认证  发表于 2022-6-11 08:11:37
具体而言,该股票嵌入使用离散编码作为输入进行建模,即Isctis avector的大小等于股票宇宙中的股票数量,元素1表示第i个坐标,元素0表示其他位置,从而表示每个样本的股票。形式上,我们可以将每种股票一个模型的方法表示为映射σsct+1=fsc(DNsct-T、 DNsct公司-T+1,···,DNsct;DPsct公司-T、 DPsct公司-T+1,···,DPsct)(35),其中,DNsctis是一个固定向量,表示在给定日期发布的所有新闻,用于方程式33中定义的股票丑闻和DPsctis。全局模型试图学习单个映射f,该映射f在每个小批量迭代中随机聚合所有库存的样本,而不是一个映射fscper库存。全局模型表示为σsct+1=f(DNsct-T、 DNsct公司-T+1,··,DNsct;DPsct公司-T、 DPsct公司-T+1,···,DPsct;Isct)(36)在下一节中,我们将描述我们的分层神经模型,以及如何将新闻、价格和股票嵌入融合到一个联合表示中。在下一节中,我们将清楚地看到这种新闻表示是如何建模的。5.3. 我们的多模态层次网络从广义上讲,我们的层次神经结构描述如下。首先,在给定的日期t发布的每个标题都被编码成一个固定大小的向量,并使用一个句子编码器。然后,我们应用我们的每日新关联注意(NRA)机制,该机制根据每一条新闻的内容关注每一条新闻,并将某一天发布的新闻的可变大小转换为每日新闻(DN)表示的单个向量。我们注意到,这种表述考虑了特定日期发布的所有新闻的总体影响。此过程如图6所示。我们现在可以考虑过去几天市场新闻和价格特征的暂时影响。图7说明了从时间序列到最终波动率预测的神经网络架构。

28
mingdashike22 在职认证  发表于 2022-6-11 08:11:40
对于每个股票代码sc,新闻的时间编码由市场新闻MNSCT表示,价格由市场价格M表示,是过去每日新闻表示{DNsct}的函数-T、 ···,DNsct}(文本模式)和DailyPrices功能{DPsct-T、 ···,DPsct}(价格模式),其中每个每日价格DPsct特征由等式33给出,而DNsctrepresentation是使用每日新的相关性注意来计算的。在过去几天的市场活动的暂时影响已经编码到市场新闻MNSCT和市场价格MPsct中之后,我们将特征明智的M Nsct、M PT和股票嵌入Esc连接起来。股票嵌入ESC表示给定日期t上样本的股票代码。最后,我们有一个完全连接(FC)层,学习所有模式的联合表示。这种固定大小的联合表示被输入到具有线性激活的FC层,预测下一天的波动率σt+1。下面,我们分别为每个模式详细介绍了hierarchicalmodel的各个层文本模式1。单词嵌入检索无可训练参数的标准嵌入层。它接收单词索引向量作为输入,并返回单词嵌入矩阵。2、新闻编码器该层对给定日期的所有新闻进行编码,并输出一组嵌入{St,····,Slnt}的新闻。每个编码句子都有维度dS,这是我们模型的一个超参数。这一层构成了我们神经架构的关键组成部分,因此,我们使用BiLSTM注意(第4.3.2子节)和BiLSTM最大池(第4.3.1子节)架构,并将RCV1和SNLI转换为固定特征,对我们的模型进行端到端的评估。3、每日新闻相关性关注我们提出的针对某一天发布的所有新闻的新闻相关性关注机制。

29
何人来此 在职认证  发表于 2022-6-11 08:11:43
引入注意机制来处理信息标题编码STI是从标题词嵌入中学习到的端到端的,或者是作为固定特征从TL任务中传递出来的。图6:每日新闻相关性关注。图中显示了沃尔玛公司发布三条新闻的一天。在将标题编码为固定大小的表示形式后,每日新闻相关性注意通过根据标题内容关注每个标题,将所有句子转换为所有每日新闻数据的单向量表示形式。超载。它旨在“过滤”冗余或误导性新闻,并仅根据新闻内容关注相关新闻。形式上,该层输出嵌入DNsct=Plni=1βiSscit的每日新闻(DN),这是给定日期t上所有编码新闻的线性组合。该新闻级注意使用与等式31相同的等式,但使用可训练权重{WR,bR,vR},即权重与句子编码器分离。图6显示了我们的相关性关注。请注意,这一层被有意开发为对标题排列保持不变,就像上面的线性组合公式一样。原因是我们每天都会对价格数据进行采样,因此,我们无法区分市场对每日新闻的反应。4、新闻时态上下文序列层,每日新闻嵌入DNsctas时间步。这一层旨在学习新闻的时间背景,即t天的新闻与过去t天的新闻之间的关系。它接收按时间顺序排列的每日新闻嵌入序列{DNsct-T、 ···,DNsct}并输出新闻模式编码市场新闻M Nsct∈ dMN。时间步长为T的序列使用BiLSTM注意编码。该层旨在捕捉新闻发布的时间顺序和当前新闻的新颖性。即

30
mingdashike22 在职认证  发表于 2022-6-11 08:11:46
基于LSTM网络的调制门,过去重复的新闻可能会被“遗忘”价格模式5。价格编码器序列层类似于新闻时间上下文,但用于价格模式。输入为有序序列日价格{DPsct-T、 ···,DPsct}图7:分层神经网络架构。尺寸T,其中每个元素的价格特征在公式33中定义。特别是,该体系结构由两个堆叠的LSTM组成。每个价格特征时间步的第一个输出是一个考虑时间上下文的隐藏向量。然后,这些隐藏向量再次传递给第二个独立的LSTM。该层输出价格模式编码市场价格MPSCT∈ dMP。此编码是第二个LSTMMarket的最后一个隐藏向量库存嵌入6。股票编码器股票密集表示。该层接收离散编码Isctindicating,指示样本股票代码通过FC层,并输出一个股票嵌入Esc联合代表7。MergingFeature智能新闻、价格和股票模式串联。无可训练参数。dJR尺寸的接头表示编码器RFC层。5.4. 缺失模式的多模式学习在训练过程中,我们将价格、新闻和股票指数数据输入到神经模型中。价格和股票指标模式数据每天都会出现。然而,在个人股票层面,我们可以有几天该公司没有被媒体报道。这一特性给我们的多模式训练带来了挑战,因为神经网络无法在没有特殊干预的情况下处理缺失模式。一个简单的解决方案是只考虑发布新闻的天数,而不考虑剩余的样本。然而,这种方法有两个主要缺点。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 03:22