楼主: mingdashike22
2973 43

[量化金融] 股票价格跳跃到达的预测:基于新注意的 [推广有奖]

11
可人4 在职认证  发表于 2022-6-25 04:12:25
选择验证数据的方式应确保重复样本属于培训或验证数据集。根据观察日期,将数据分为训练集。2014年至2015年,总共360天,跨度约一年半。对数据进行划分,以便首先有50天的训练数据,然后是10天的测试数据。下一组包括前50天和后50天,并在两组之后的10天进行测试。整个数据集都遵循这种模式,因此第七个测试集将在350天内进行训练,并在360天中的最后10天进行测试。此外,在一个窗口中显示训练数据,以便从观察期开始(但不在集合之间重置)一次在最新的50个样本上训练模型。数据集培训日测试日1。1-50 51-602. 1-100 101-1103. 1-150 151-1604. 1-200 201-2105. 1-250 251-2606. 1-300 301-3107. 1-350 351-360表2:在50天的训练序列中使用的数据集划分。2.2. 检测跳跃(输出数据)为了检测股价的跳跃,我们使用Lee和Mykland(2008)提出的算法。由于跳跃是短期预测的,因此在观察期内每分钟收集一次样本。这提供了一个可能发生跳变的一分钟窗口,允许在接下来的一分钟内将这些样本分类为有跳变或无跳变。我们在整个采样周期内运行跳转检测算法,以收集必要数量的跳转样本。用于估计双功率变化的数据窗口长度为600分钟。检测到的跳跃频率如表3所示。平均而言,每只股票每天大约有三次跳跃。然而,跳跃在两天之间并不是平均分配的。

12
何人来此 在职认证  发表于 2022-6-25 04:12:28
相反,有跳跃的日子平均跳跃次数往往更大。图2显示了每天跳跃次数的样本分布。此外,Lee和Mykland(2008)等观察到,在一个交易日内,跳跃往往严重偏向早上。绝大多数检测到的跳跃发生在交易日的前半小时内,所有股票在前1.5小时后仅偶尔出现跳跃。此外,在下午2点,所有股票的数量都略有增加,14:00至14:05之间的时间段包含大约四倍于13:55至14:00之间的大幅上涨。此时的跳跃发生在整个观察期间的多次跳跃中。图3显示了整个观察期内根据一天中的时间计算的跳跃分布。培训期AAPL FB GOOG MSFT INTC平均1-50 164 182 155 160 149 16251-100 200 177 131 161 150 164101-150 172 102 152 157151-200 161 171 125 132 170 152201-250 178 181 136 149 155 160251-300 172 186 111 155 150301-350 184 182 109 122 147平均176 182 124 143 155 156测试期AAPL FB GOOG MSFT INTC平均51-60 37 35 42 38 101-110 54 55 27 38 151-160 38 2627 36201-210 32 41 26 28 18 29251-260 39 32 33 26 27 31 301-310 35 12 24 18 25351-360 26 19 16 5 13平均值表3:按股票和集合的训练和测试数据集中的跳跃频率。共有5537次跨越362- 观察2天。来自股票的数据用于按时间和股票构建训练和测试集,如表3所示。未考虑首次公开市场开放(9.30)时的跳跃。

13
能者818 在职认证  发表于 2022-6-25 04:12:31
此外,由于之前的观察量不足,无法满足跳跃检测算法的窗口大小要求,因此前两天的跳跃未被检测到。这也意味着表2中的训练集跳过了序列的前两天,以避免将可能的跳跃样本标记为非跳跃,因为在0 5 10 15 20 25 30跳跃次数1020304050天/跳跃计数期间无法检测到跳跃。图2:AAPL每天的跳跃计数。大约12%的天没有跳跃,大约19%的天有五次以上的跳跃,中位数为三次跳跃。0 1 2 3 4 5时间(小时)050100015002000JumpsJumps按一天中的时间图3:从交易日上午9:30开始的10分钟内,一天中各时间段的跳跃总量。所有股票的分布都是相似的,从上到下用不同的颜色表示:AAPL、FB、INTC、MSFT、GOOG。价格序列的开头。因此,表中的第1天实际上是价格观察期的第3天。2.3. 订单簿状态数据(输入数据)输入使用LOB数据,LOB数据是从订单簿事件数据重建的。LOB包含本书两侧十个最佳级别的要价和标价及其数量。这只需在某个时间检查活动订单即可完成,然后可以按价格订购,以获得十个最佳级别,从而使最低要价和最高出价位于第一级,后续级别由订单下一级的现有价格进行查询。数量是该价格订单的数量之和,多个订单级别的数量是该级别上所有活动订单的总和。构建该书的方法还意味着,两个确定的价格之间不可能存在空白水平。

14
可人4 在职认证  发表于 2022-6-25 04:12:34
相反,除非没有足够的订单来填满这十个级别,否则会留下完全空的刻度,在这种情况下,订单中最后一个级别的价格和数量为0。为了获得订单状态的最佳视图,我们遵循Kercheval和Zhang(2015)的方法,从数据中提取了144个指标:a)包含10个级别的法定LOB数据的基本特征集,两侧都包含买卖订单的价格和数量值,b)利用过去的信息描述LOB状态的不区分时间的特征集,c)通过考虑时间,描述原始数据中信息边缘的时间敏感特征。不区分时间的集合包含关于价差、差异和均值的更多信息。时间敏感集包含指示数据随时间变化的特性,如导数、加速度和强度。表4中提供的这些特征也用于Ntakariset al.(2018年);Tsantekidis等人(2017b,a);Passalis等人(2017);Tran等人(2018年)。功能集描述详细信息a)基本v={Paski、Vaski、Pbidi、Vbidi}ni=110级LOB数据,i=1。nb)时间-v={(Paski- Pbidi,(Paski+Pbidi)/2}ni=1扩展和中等价格不敏感v={| Paski+1- Paski |,| Pbidi+1- Pbidi |}n-1i=1价格差异V={nnPi=1Paski,nnPi=1Bidi,nnPi=1Vaski,nnPi=1Vbidi}价格和交易量平均值V={nPni=1(Paski- Pbidi),nPni=1(Vaski- Vbidi)}累计差异c)时间-v={dPaski/dt,dPbidi/dt,dVaski/dt,dVbidi/dt}ni=1价格和体积导数正v={λlat、 λlbt、 λmat、 λmbt、 λcat、 λcbt} 每种类型的平均强度V={1λlat> λlaT、 1λlbt> λlbT、 1λmat> λmaT、 1λmbt> λmbT} 相对强度指示器v={dλma/dt,dλlb/dt,dλmb/dt,dλla/dt}加速度SD)时钟时间v={btc}时间,四舍五入到小时表4:特征集。在表中,P代表价格,V代表数量。

15
nandehutu2022 在职认证  发表于 2022-6-25 04:12:37
此外,λ表示给定订单簿事件的强度。除了LOB数据外,Kerchevaland Zhang(2015)中提出的一些时间敏感特征需要计算强度,即某种类型的到达订单或取消数量,不能直接从构建的账簿中计算,而必须从原始事件数据中计算。强度分为询价和竞价,订单根据是限制订单还是市场订单进行分类。每个步骤的强度直接从理论流量数据计算,并附在该步骤的相应订单数据上。在市场小时内,每秒钟计算一次极限指令簿状态和强度,每天总共产生23400个观测值。由于不同的交易机制,非交易小时的数据被丢弃,多日使用的数据被视为连续序列。除了一些建议的特征外,还包括观察的大致时间,以解释白天不同时间点的股票行为差异。时间戳四舍五入到最接近的时间,以避免收敛到纯粹基于时间的分类的局部极小值。对于数据集(表2),通过一个一分钟的移动窗口在训练集中提取样本,每分钟创建一个样本,每天总共390个样本。阳性样本被定义为在最后一次观察后,即在下一分钟内出现跳跃的样本,该窗口不包括这些样本。负样本仅从移动窗口收集;对于阳性样本,由于样本大小的巨大差异,窗口会稍微移动多次以生成更多的阳性样本。

16
何人来此 在职认证  发表于 2022-6-25 04:12:40
由于数据是每秒收集一次的,因此可以将窗口移动得足够小,以不包括跳跃,同时为样本创建略微不同的数据,以增加多样性,并在下一分钟内保留现有的泵的原始分类。为了确保订单中可能出现的周期性变化不会因为只移动正样本而影响分类结果,负样本也会随机移动。所有采集的样本均包含120个步骤,每一分钟采样一次。然后使用z分数对这些样本进行归一化,以消除不相关的噪音,例如,由于起始价格不同:x归一化=(x- \'x)/σ'x,其中x是要归一化的特征向量,\'x是其平均值,σ'x是标准偏差(Cheadle et al.,2003)。这些特征按样本一次一个特征进行归一化:x是一个长度为120的向量,包含样本中单个特征的所有观察值,例如,所有ask级别5卷。由于不同水平和体积及其指标之间的行为和尺度存在巨大差异,因此有必要对不同特征进行单独的标准化。包括从限额订单中计算的不同指标,例如价格差异,允许保存关于不同值之间关系的信息,即使在标准化之后。由于价格行为的变化,即使是在一天内也会发生,因此数据是逐样本标准化的。还需要一个相对较短的标准化窗口,以避免更大规模的价格依赖。例如,如果数据在整个时间段内进行了标准化,观察价格之间的主要差异将来自长期漂移,而不是最近的价格变化。

17
kedemingshi 在职认证  发表于 2022-6-25 04:12:43
由于长期变化不太可能是分钟级数据中跳跃发生的主要决定因素,因此标准化周期应足够短,以避免从中学习。此外,在使用的数据中,最重要的因素似乎是跳跃前几个小时发生的变化。公司公告相关的更大跳跃也注意到了这一时间段内的变化,其中流动性的变化通常在价格跳跃前一个多小时开始(Siikanen et al.,2017,b)。在样本中进行的规范化还需要一个足够大的观察窗口,因为它需要足够大以捕获变化的元素。也有迹象表明,在做出另一预测的同一天,价格已经大幅上涨,与之前的数据相比,价格变动的影响有所减轻。此外,由于所有样本长度相等,因此在一天的前两个小时,窗口必须包括前一天采集的样本。3、神经网络模型神经网络是基于人脑结构建模的学习系统:大量称为神经元的个体单元处理通过网络提供的信息。然后,他们根据提供的信息调整内部权重,使系统“学习”。从方法上讲,价格跳跃预测可以被视为与中等价格预测类似的问题(Kercheval和Zhang,2015;Ntakariset al.,2018;Tsantekidis et al.,2017b,a;Passalis et al.,2017;Tran et al.,2018;Sirignano和Cont,2018),尽管由于有跳跃的时间间隔与无跳跃的时间间隔比例较小,价格跳跃预测也有其自身的问题。这项工作中使用的方法是标准MLP、LSTM和卷积网络,之所以选择这些方法,是因为它们在预测和分类其他时间序列方面取得了成功Yang等人(2015);邢健等。

18
kedemingshi 在职认证  发表于 2022-6-25 04:12:46
(2015); 格雷夫等人(2017年)。此外,通过结合卷积层和LSTM层以及Zhou等人(2016)提出的注意模型,开发了一种新的网络模型。提出的卷积长-短期记忆注意模型(CNN-LSTM-Attention)旨在利用LSTM进行时间序列记忆,利用CNN和注意力模型减少输入大小,增加局部性,并关注最重要的特征以改进预测结果。3.1. 多层感知器可能最常见的神经网络类型是MLP,它是一种前馈神经网络,由多层神经元以分层方式堆叠而成。它在输入层接收数据向量,然后信息通过隐藏层传播,在输出层提供响应。每一层由一组神经元组成,每个神经元接收前一层神经元的输入,并提供bh=θhIXi=1wihxi!形式的非线性响应!,(1) 其中I是前一层的神经元数量,每个神经元提供一个输入xi,wijis是前一层的第I个神经元与当前层的第j个神经元之间的权重。θ是一个非线性(分段)可微分函数,用于非线性缩放神经元的响应。

19
nandehutu2022 在职认证  发表于 2022-6-25 04:12:49
输出神经元的工作原理与隐层神经元完全相同,尽管它们可能使用不同的激活方式(例如,导致类似概率的反应)。隐藏层的最佳大小由使用的数据确定,而输出层的大小由输出类的数量确定(Graves,2012;Jefferson等人,1995)。多类分类是通过遵循竞争性训练方法进行的,即具有最高响应的输出神经元指示预测的类标签(Chollet等人,2015)。网络训练包括两个阶段,向前传球和向后传球。在前向传递中,将训练向量引入网络,得到网络的响应。这些响应与提供的注释(即,表示每个训练向量最佳响应的目标向量)结合使用,以确定网络的损失函数误差。然后,此错误将在backwardpass中使用,以更新网络的参数。这是通过利用神经元激活函数的(分段)差异性,采用称为误差反向传播的梯度下降学习方法来实现的。我们使用这种参数更新方法的高级版本,称为Adam Kingma和Ba(2014),该方法根据输入向量自适应定义每个更新步骤的超参数。对于分类问题和给出类似概率响应的网络,通常使用交叉熵损失函数。它通过测量从集合中提取事件所需的平均位数来确定集合之间的熵。对于离散集p和q,其中Pi是真实标签,Qi是当前预测值,二进制交叉熵可以定义为asH(p,q)=-希皮洛(齐)。

20
nandehutu2022 在职认证  发表于 2022-6-25 04:12:52
(2) 可以表明,当在估计真实分布p的分布q之间进行选择时,最小化交叉熵会导致通过最大化总熵来选择最佳估计(Shore和Johnson,1980)。因此,它是一个适合最小化的损失函数,通常比简单的误差度量更好地描述真实的损失。3.2. 递归神经网络与长-短期记忆本文采用长-短期记忆(LSTM)模型,通过将先前的信号传递给相同的节点,在时域内累积特征并模拟记忆。LSTM可以看作是递归神经网络(RNN)的特例,其中神经元之间的连接允许直接循环连接。在abasic循环网络中,神经元在同一层内形成连接,形成一个单向连接网络。在最简单的形式中,这意味着一个标准的神经网络,但有一个反馈回路。基本RNN中的连接按照标准MLP进行加权。RNN通过保持递归特性导致的内部状态来处理其输入中的时间关系,这种特性特别适合于时间序列数据(Gileset al.,2001)。LSTM最早由Hochreiter和Schmidhuber(1997)提出,其开发目的是通过利用基于循环连接的短期记忆和以缓慢变化权重表示的长期记忆来解决在时间向后流动时(尤其是对于长时间依赖)保持错误信号成比例的问题。通过将神经元连接到自身,确保恒定的错误信号流。LSTM引入了存储单元的概念来控制网络的内存流量。记忆单元是一个单一的神经单元,它增加了乘法输入和输出门。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-22 12:10