楼主: 大多数88
1124 29

[量化金融] 利用平稳极限进行价格预测的深度学习 [推广有奖]

11
何人来此 在职认证  发表于 2022-6-11 00:26:47
在某种程度上,可以使用循环的神经网络架构(如s LSTM)来解决这个问题,该架构能够以本机方式处理不同大小的输入。这允许直接充分利用数据,而无需使用基于子采样的时间间隔。本研究中使用的LOB数据由Nasdaq Nordic提供,包括5家不同芬兰公司股票的10天LOB事件,即Kesko Oyj、Outokumpu Oy j、Sampo、Rautaruukki a和Warts ila Oyj【34,35】。收集数据的准确时间段从2010年6月1日至2010年6月14日。此外,请注意,只有在工作日才进行交易。数据由每个状态改变事件发生后LO B状态的连续快照组成。此事件可能是订单插入、执行或取消,在它与LOB交互并更改其状态后,将拍摄新状态的快照。订单簿每侧使用的数据的LOB深度为10,最终为每侧10个活动订单(包括价格和数量),总计为每个LOB快照的40个值。该endsup总计450万个快照,可用于转换和评估提议的模型。在这项工作中,我们的目标是根据LOB中当前和过去发生的变化预测价格变动。该问题正式定义如下:设x(t)∈ Rqdenote特征向量that描述特定股票在时间t时的LOB状况,其中q是相应特征向量的维数。该股票的中间价方向定义为lk(t)={-1、0、1}取决于k LOB事件发生后中间价是下降(-1)、保持不变(0)还是上升(1)。订单数量k也称为预测范围。

12
nandehutu2022 在职认证  发表于 2022-6-11 00:26:51
我们的目标是学习一个模型fk(x(t)),其中fk:Rn→ {- 1,0,1},预测k个订单后中间价的方向lk(t)。在下一节中,将深入解释上述特性和标签,以及计算它们的步骤。4、固定特征和标签提取如果没有某种预处理,原始LOB数据无法直接用于任何ML任务。可以为所有股票的LOB收集订单量值,并将其归一化,因为预计它们将遵循相同的分布。然而,价格价值并非如此,因为股票或资产的价值可能会随着时间的推移而波动和增加,达到前所未有的水平。这意味着价格值的统计数据可以随时间显著变化,从而使价格时间序列非平稳。简单地规范化所有价格值并不能解决非平稳性问题,因为总有看不见的数据可能会将值的分布更改为当前数据中不存在的范围。我们为这个问题提供了两种解决方案,一种是在过去的工作中使用的,其中经常使用过去可用的统计数据进行归一化,另一种是将价格数据完全转换为固定值的新方法。4.1. 输入规范化最常见的规范化方案是标准化(z分数):xnorm=x- \'xσ\'x,(1)其中x是要归一化的特征,\'x是所有样本的平均值,σ\'xis是所有样本的标准偏差。这种规范化分别应用于订单大小值和价格值。使用这种“全球”标准化可以保持不同股票价格之间的差异尺度,这是我们正在努力避免的。[31,9]中提出的解决方案是使用zscore,通过使用前一天相同股票的数据计算出的平均值和标准偏差,对每个股票日的数据进行非恶意化。

13
kedemingshi 在职认证  发表于 2022-6-11 00:26:54
这样就避免了一个主要问题,即股票价格的分布变化,这可能是由股票分割或长期价格大幅变化等事件引起的。不幸的是,这为学习提出了另一个重要问题。不同LOB级别的价格值之间的差异几乎总是很小的。由于所有价格水平都是使用具有相同统计数据的z分数进行标准化的,因此在该尺度下提取特征是很困难的。在这项工作中,我们提出了一种新的方法来解决这个问题。我们将价格值修改为与订单当前中间价的百分比差异,而不是将LOB深度的原始值标准化。正如第6节中的实验所证明的那样,这重新消除了价格值的非平稳性,简化了自然提取过程,显著提高了ML模型的性能。为了补偿价格本身的删除,我们向每个LOB深度样本添加了一个额外的值,即自上次事件以来中间价格的百分比变化。中间价定义为最佳出价和最佳要价之间的中点,时间t为p(1)m(t)=p(1)a(t)+p(1)b(t)。(2) Letp′(i)a(t)=p(i)a(t)pm(t)- 1,(3)p′(i)b(t)=p(i)b(t)pm(t)- 1,(4)和p′m(t)=pm(t)pm(t- 1)- 1.(5)等式(3)和(4)作为统计特征,表示时间t的单价和中间价之间的比例差异。

14
能者818 在职认证  发表于 2022-6-11 00:26:57
另一方面,方程式(2)是一个动态特征,它捕捉到了在一段时间内成比例的中间价变动(即,它代表了当前的中间价回报)。我们还使用价格水平大小的累积和作为特征,也称为总深度:ν′(k)a(t)=kXi=1ν(i)a(t)(6)ν′(k)b(t)=kXi=1ν(i)b(t)(7),其中,ν(i)a(t)是与k价格水平相同的第i个最佳未结限额订单数量,而ν(i)b(t)是在bth b est ask价格水平的未结限额订单数量。表1简要总结了拟议的固定特征。构建这三种类型的统计特征后,使用标准化(zscore)(如(1)中所述)分别对每种特征进行归一化,并将其连接到单个特征向量xt中,其中t表示时间步长。时间感知模型(如CNN、LSTM和CNN-LSTM)使用的输入是向量X={X,X,…,xw}的序列,其中w是由不同时间步长输入表示的每个单元的事件总数。对于需要将所有输入输入到单个向量中的模型,如SVM和MLP模型,矩阵X被转换为单个维度,因此可以将其用作这些模型的输入。4.2. 标签提出的模型旨在预测中间价的未来走势。因此,必须适当地生成地面真相标签,以反映未来的中等价格变动。请注意,中间价是一个“虚拟”值,如果以该确切价格下单,则无法保证立即执行订单。然而,能够预测其向上或向下移动可以很好地估计未来订单的价格。必须根据我们的数据构建一组discr-ete选项,以用作分类模型的目标。

15
大多数88 在职认证  发表于 2022-6-11 00:27:00
用于描述由yt表示的运动的标签∈ {-1,0,1},其中t表示时间步。简单地使用pm(t+k)>pm(t)来确定中间价的上升方向将产生难以控制的噪音,因为最小的变化将被记录为向上或向下移动。为了再次证明这一点,在我们之前的工作【31,9】中,通过使用两个平均滤波器来过滤中间价格的噪声变化。一个平均滤波器用于中等价格过去值的大小为k的窗口,另一个平均滤波器用于未来表1:每个拟议固定特征的简要描述价格水平差异每个价格水平与当前中等价格的差异,见等式(3),(4)p′(i)(t)=p(i)(t)pm(t)- 1中间价变化当前中间价到上一时间步中间价的变化,见公式(5)p′m(t)=pm(t)pm(t- 1)- 1每种价格水平下的深度大小积云深度,见公式(6),(7)ν′(k)(t)=kXi=1ν(i)(t)窗口k:mb(t)=k+1kXi=0pm(t- i) (8)ma(t)=kkXi=1pm(t+i)(9),其中Pti是等式(2)中所述的中间价格。标签lt,that表示时间t的价格变动方向,通过比较之前定义的数量(mbandma)提取。然而,如【31,9】所示,使用MBValue为样本创建标签,由于平均过滤值对价格突然变化的适应较慢,使得问题变得更加容易和可预测。因此,在这项工作中,我们通过用中间价替换MBS来解决这个问题。因此,标签重新定义为:lt=1,ifma(t)pm(t)>1+α-1,ifma(t)pm(t)<1- α0,否则为(10),其中α是确定中间价格变化ma(t)的重要性的阈值,以标记向上或向下的变化。

16
大多数88 在职认证  发表于 2022-6-11 00:27:03
不满足这种不平等的价值被视为不显著的,并被标记为没有价格变动,或者换句话说是“固定的”。结果标签显示了要预测的趋势。此过程应用于数据集的所有时间步骤,以生成所有深度样本的标签。输入(300个时间步x 42个特征)1D卷积(10,40)16个滤波器1D卷积(10,)16个滤波器1D卷积(8,)32个滤波器1D卷积(6,)32个滤波器MLPMLPCNN提取特征的时序1D卷积(8,)32个滤波器图1:评估CNN模型的视觉表示。每层包括过滤器输入大小和使用的过滤器数量。5、机器学习模型在本节中,我们解释了所使用的CNN和LSTM模型的特定内部工作原理,并介绍了它们如何组合形成拟议的CNN-LSTM模式l。解释了每个模型的技术细节以及所采用的优化程序。5.1. 卷积神经网络卷积神经网络(CNN)由卷积层和池层的顺序应用组成,后面通常是一些完全连接的层,如图1所示。每个旋转层i配备一套过滤器Wi∈ RS×D×nth与输入张量进行卷积,其中S是所用滤波器的数量,D是滤波器的大小,N是输入通道的数量。输入张量X∈ R(B×T×F)由第4.1节中描述的时间顺序特征组成,其中re B是批次大小,T是时间步数,F是每个时间步的特征数。在这项工作中,我们对[3]中介绍的因果添加进行了平均,以避免使用将来的信息来生成当前时间步的特征。

17
mingdashike22 在职认证  发表于 2022-6-11 00:27:06
使用一系列卷积层可以捕捉时间序列的细微时间动态以及相关的时间距离特征。在第一个卷积/池层之后,使用一组完全连接的层对输入时间序列进行分类。网络的输出表示每个时间步的三个方向标签(向上、向下和静止)的分类分布,如(10)所述。我们还采用了一种与LSTMs中使用的方法类似的时间批处理技术,以提高计算效率,并在使用CNN进行训练时减少实验的内存需求。考虑到上述输入张量X和卷积滤波器的最后一个c,卷积产生一个尺寸为(B、T、S、N)的张量,在大多数情况下,在馈送到完全连接的层之前,该张量会衰减到张量大小(B、T×S×N)。相反,我们通过将张量降维(B,T,S×N)来保持时间顺序。对于每个S×N矢量,应用具有softmax输出的完全相同的连接网络,从而产生不同的预测。由于我们使用的是带有“完全”填充的因果卷积,所有卷积层产生相同的时间步T,因此我们不需要担心标签与正确的时间步对齐。此外,因果卷积确保未来不会有信息泄漏给最短时间段过滤器。这项技术降低了雇员CNN的接收场,但这可以通过使用更多的卷积层和/或更大的滤波器尺寸D.5.2来轻松消除。长短记忆递归神经网络一种最适合应用于时间序列的神经网络结构是递归神经网络(RNN)。

18
大多数88 在职认证  发表于 2022-6-11 00:27:10
尽管这种网络在理论上很强大,但它克服了消失梯度问题,这使得梯度不可能通过大量步骤传播。为解决这个问题而引入的一种体系结构是长短时记忆(LSTM)网络[25]。该体系结构通过在其“事务”点之间使用门控函数,保护其隐藏的激活不受无关输入和梯度衰减的影响。受保护的隐藏激活是由s aid g ates以以下方式调节的“细胞状态”:ft=σ(Wxf·x+Whf·ht-1+bf)(11)it=σ(Wxi·x+Whi·ht-1+bi)(12)c′t=tanh(Whc·ht-1+Wxc·xt+bc)(13)ct=英尺·ct-1+it·c′t(14)ot=σ(Woc·ct+Woh·ht-1+bo)(15)ht=ot·σ(ct)(16),其中ft、It和Otal是在时间步t激活输入、遗忘和输出门,这控制了将考虑多少输入和先前状态,以及网络的隐藏激活将包括多少cellstate。受保护的细胞激活时间步骤t用ct表示,而HT是将给予模式l的其他组件的激活。矩阵Wxf、Whf、Wxi、Whi、Whc、Wxc、Woc、Wohare用于表示将每个激活与当前时间步骤输入和之前时间步骤激活相连接的权重。5.3. 模型组合(CNN-LSTM)我们还介绍了前面描述的两个模型的强大组合。CNNmodel的应用与第5.1节中所述的相同,使用因果卷积和时间匹配为每个时间步生成一组特征。

19
大多数88 在职认证  发表于 2022-6-11 00:27:13
本质上,CNN充当LOB深度时间序列的featureextractor,它生成与原始特征长度相同的新特征时间序列,每个特征都具有相互对应的时间步。然后在CNN生成的时间序列上应用LSTM层,然后为每个时间步生成标签。这与5.1中描述的用于临时配料的完全连接层的工作方式非常相似,但LSTM允许mo de lto合并过去步骤中的特征,而不是完全连接层。模型架构如图2.5.4所示。优化通过最小化分类交叉熵损失来学习模型参数,定义为:L(W)=-LXi=1yi·log^yi,(17),其中L是不同标签的数量,符号W用于表示模型的参数。地面真值向量用y表示,而^y是预测的标签分布。每个批次中所有样品的损失总和。由于这类数据集不可避免的类别不平衡,因此使用加权损失来提高所有类别的平均调用和精度:L(W)=-LXi=1cyi·yi·log^yi,(18),其中cyi是yi类的指定权重。分配给每个classi的个体权重计算为:ci=| D | n·| Di |,(19),其中| D |是数据集D中的样本总数,n是类的总数(在本例中为3),Dii是数据集中标记为属于classi的样本集。将(18)中定义的损失函数最小化并学习模型参数W的最常用方法是梯度下降法【36】:W′=W- η ·LW(20),其中W′是每个gra die nt下降步骤后的模型参数,η是学习率。

20
kedemingshi 在职认证  发表于 2022-6-11 00:27:16
在这项工作中,我们使用了RMSProp优化器【37】,这是一种自适应学习率方法,已被证明可以改善DL模型的训练时间和性能。使用Keras开发了LSTM、C NN和CNN-LSTM模型以及所有训练算法【38】,这是一个建立在张量流库之上的框架【39】。6、实验评估对模型进行了步长k=10、50、100和200 in(9)的测试,其中α值foreach设置为2×10-5, 9 × 10-5, 3 × 10-4和3.5×10-分别为4。参数α与未来的hor izon一起选择,目的是使标签在类之间的分布相对平衡。在真实的交易场景中,不可能有一个能产生与“无交易”信号一样多的交易信号的可盈利战略,因为这会累积正常的佣金成本。由于这个原因,使用im选择α以获得大约20%长、20%短和60%固定标签的逻辑比率。改变参数α对类别分布的影响卷积预测特征时间序列卷积LSTMFigure 2:CNN-LSTM模型表2:预测水平k=100α向下平稳上升1.0×10时,样本跨类别分布取决于α的示例-50.39 0.17 0.452.0 × 10-50.38 0.19 0.435.0 × 10-50.35 0.25 0.411.0 × 10-40.30 0.33 0.362.0 × 10-40.23 0.49 0.283.0 × 10-40.18 0.60 0.223.5 × 10-40.15 0.66 0.19标签如表2所示。请注意,增加α可以减少应根据实际佣金和预计发生的滑移成本进行更改的贸易信号数量。我们分别使用原始特征和提出的平稳特征对CNN和LSTM模型进行了测试,并对结果进行了比较。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-22 22:59