股票价格跳跃到达的预测：基于新注意的 - 第3页 - 外文文献专区

21楼

发表于 2022-6-25 04:12:56

这些是为了保护神经元免受不相关输入触发的变化，并保护其他单元免受当前存储在神经元内的不相关信息的影响。每个存储单元都有固定的自连接和处理来自多个输入源的输入，以创建输出信号。共享相同输入和输出门的存储单元形成存储单元块（Hochreiter和Schmidhuber，1997）。LSTM网络的训练是使用改进版的反向传播来完成的，其中单个步骤包括向前传递和通过计算所有权重的错误信号来更新所有单元，这些权重在网络中向后传递（向后传递）。输入门YIN和输出门YOUTASYOUTJ（t）=foutj（Xmwoutjmym（t- 1）），（3）yinj（t）=finj（xmwinjym（t- 1）），（4）其中j是内存块索引，v是内存块j内的一个单元，因此CVJ标记第j个内存块的第v个单元，wlmis表示单元m和l之间连接的权重。输入门定义为in，输出门定义为out。回路对网络确定的所有源单元求和。函数f是闸门的一个不同函数，如逻辑西格莫伊夫（x）=1+e-x、（5）其中x∈ [0, 1]. 输入被可微分函数g（·）进一步挤压（Gerset al.，2000）。Gers等人（2000年）通过包括一个额外的门，即“忘记门”，进一步增加了LSTM模型。遗忘门允许LSTM单元在适当的时间重置自身，释放资源以供使用。LSTM层输出每个特征激活的一维向量，或在每个处理的时间步输出每个特征值的二维结构。当LSTM层连接到致密层时，需要前者，因为致密层需要一维输入。然而，一些模型，如周等人提出的注意模型。

22楼

可人4

发表于 2022-6-25 04:12:58

（2016），当应用于LSTM层时，需要多维LSTM输出，因为其目的是计算每个时间步的加权值。3.3. 卷积神经网络卷积神经网络（CNN）可以用来捕获时间和特征空间中的模式。卷积神经元结合特征和/或时间维度中相邻观测的信息，每个神经元在输入时间序列中识别不同的模式。CNN模拟视觉系统处理视觉数据的方式。特定神经元只关心输入的特定部分，同时使特定特征的位置不那么相关，只要它们与其他特征有一定的关系。尽管CNN最初是为图像识别任务而提出的，但它已经在语音分类和时间序列预测任务中得到了应用。卷积网络结合了数据点局部性的重要性、点之间的共享权重以及可能的子采样等原则。（LeCun和Bengio，1995）CNN在图像处理领域取得了特别成功，例如，在热门的ImageNet图像分类挑战赛（Krizhevsky et al.，2012）和ImageNet功能定位挑战赛（Sermanet al.，2013）中获得了最佳参赛奖。在aCNN中，首先对图像进行归一化、调整大小并大致居中。在输入层之后，单个层中的每个单元从上一层的邻域中的一组特定输入接收输入，使接收域本地化。这允许提取某些局部特征，然后将其结合起来（LeCun和Bengio，1995）。每个卷积层后面都有一个额外的“池层”，用于执行局部平均和/或子采样。

23楼

nandehutu2022

发表于 2022-6-25 04:13:01

这会降低每一步输入的分辨率，并降低网络对位移和失真的敏感性（LeCun和Bengio，1995）。图4显示了一个简单的CNN池组合。池也可以使用输入窗口的最大值来完成，在降低分辨率的同时，将注意力吸引到更显著的特性上。这称为最大池，通常也在Sample\'in\'window apply\'convolution apply\'result max\'poolFigure 4：最大池的二维卷积之间进行。一个二维CNN层，采用卷积邻域，应用卷积核并使用最大池降维。（改编自（Sermanet al.，2013））卷积（Scherer et al.，2010）。卷积层和池层通常是重复的，直到特征映射卷积到所有可能分类结果的单一输出（LeCun和Bengio，1995），或者它们可能连接到规则密集（MLP）网络层以产生最终输出（Krizhevsky等人，2012）。虽然输入的维数自然不同，但使用卷积神经网络的时间序列分析与图像中的工作原理基本相同。由于观测值依赖于时间，因此场地的位置与时间序列的关系良好；相同的观察结果可以在不同的时间得到不同的结果，观察结果的周围环境可以用来产生更好的估计（L¨angkviset al.，2014）。卷积也可以应用于一维时间序列数据，允许对单参数和多参数问题进行卷积（Di Persio和Honchar，2016）。图5.3.4给出了特征维时间序列卷积的一个示例。Hinton等人（2012年）首次提出的“辍学-辍学层”通过防止训练数据的复杂共适应来改善分类结果。

24楼

能者818

发表于 2022-6-25 04:13:04

在每次引入一个训练样本时，根据概率分布，隐藏单元被随机省略，从而从信息流中“退出”单元激活。由于它们可能不存在，这意味着隐藏单元在任何时候都不能依赖于任何其他隐藏单元的存在，这使得网络更加健壮，因为它不能依赖于任何单传递值。timefeaturesconvolutionpoolinginput…连接2进一步图5：1d卷积与工具。单个1d CNN层，在特征维度上进行卷积，应用卷积核并使用未指定池降低维度。（改编自（Hu et al.，2014））预先确定了退出任何一个单元的概率；Hinton等人（2012年）提出的辍学阈值为0.5。这意味着通常只有一半的单元出现在培训的任何迭代中，因此，即使它们完全（超过）符合agiven培训样本，整个网络也不会出现。任何连接都可以引入辍学，例如，在层之间，或在LSTMlayer的重复连接内部。3.5. 注意模式注意是最近在句子分类、翻译（Bahdanau et al.，2014）和生成（Graves，2013）中使用的一种机制。注意力机制通过关注输入的相关元素来产生输出。也就是说，attentionmodel根据序列的位置和内容为输入序列的元素赋予权重，支持特定点的观测在确定结果时具有更大重要性的可能性。因此，注意力模型可以用来衡量句子中不同的单词，以找到它们之间的关系（Zhou等人，2016），或者衡量时间序列中不同的时间步，例如，语音识别（Chorowski等人，2015）。在本文中，我们采用了Zhou等人提出的注意层。

25楼

大多数88

发表于 2022-6-25 04:13:07

（2016）对于句子关系分类，使用LOB数据。这里，这些步骤是由递归层处理的LOBobservations的时间步骤。在该模型中，输出表示r由多个输出向量的加权和构成：M=tanh（H）α=softmax（wTM）r=HαT，其中H是由经常层的输出向量[H，H，…，hT]和H组成的注意层输入矩阵∈ Rdw×L，其中dw是观测向量的维数。w是一个经过训练的参数向量，w是它的转置；L是序列的长度（Zhou等人，2016）。softmax是一个归一化指数函数，它将输入压缩为输出概率响应，范围为[0，1]：softmax（zi）=eziPjezj，其中激活以元素方式计算（Mikolov et al.，2015）。注意层的最终输出由h表示计算得出*= tanh（右）。Zhou et al.（2016）还包括一个softmax致密层，它引起了outputh的注意*计算最终分类结果（Zhou等人，2016）。在这项工作中，注意层直接连接到未解决的输入，然后是卷积层和LSTM层。此外，在特征维度上应用注意力模型代替时间步长。也就是说，对所有特征进行加权，对单个特征重复相同的权重，从而应用于样本中的所有时间步。这允许选择与给定样本最相关的特征。3.6. 实现神经网络是使用几个Python库构建的。使用的主要图书馆是Keras，这是一个用于构建多层网络的高级别开源框架，旨在实现快速实验（Chollet等人，2015）。然而，Keras并没有提供网络结构，而是提供了构建网络的接口。

26楼

nandehutu2022

发表于 2022-6-25 04:13:11

因此，TensorFlow（一种用于执行不同机器学习算法的实现）被用作Keras后端。张量流量是一种灵活的系统，允许利用图形处理单元来加速计算（Abadi et al.，2015）。TheKeras的模型提供了一个简单的框架，可以以简单的方式添加层，并且可以指定层与其他层的连接。这允许构建简单的顺序网络以及更多分支方法。AsKeras为许多不同的层类型提供了预先定义，使用不同的配置进行实验相当简单。MLP网络由两个泄漏的ReLu层组成，每个层由40个神经元组成。MLP网络结构如图6所示。Tsantekidis等人（2017b）提出的预测股价变动的CNN模型如图7所示。它由八层组成。第一层是具有16个大小（4,40）的滤波器的二维卷积，其次是具有16个四个长滤波器和最大两个池的一维卷积。以下是Putdense、*40*neuronsDense、*40*neuronsDense、*1*neuronFigure 6：所用MLP网络的层结构。通过2个额外的1D卷积和32个大小为3的过滤器，以及一个额外的大小为2的maxpooling层。此外，有两个完全连接的致密层，第一层有32个神经元，第二层有3个神经元。输出层被修改为仅包含一个输出神经元，作为两类分类器。此外，虽然该网络设计为仅使用40个纯限额订单数据特征，但它的大小进行了修改，以使用本研究中使用的额外特征对其进行测试。然而，由于结果更好，选择了原始的40特征网络进行进一步分析。

27楼

大多数88

发表于 2022-6-25 04:13:14

这种差异可能是由于二维卷积造成的，它将时间轴和特征轴上的特征混合在一起。！\"#$%&\'()* \"+*,$ %-*\"( ./0(/120( 34(5-,%6783\'()* \"+*,$ %-*\"( ./02 0( 34(5 -,%6789:;(#**,-\"<( .&023\'()* \"+*,$ %-*\"( .=02 0( =&(5 -,%6783\'()* \"+*,$ %-*\"( .=020( =&(5-,%6789:;(#**,-\"<( .&02\'6\"860(=&(\"6$7*\"8\'6\"860(3(\"6$7*\"!\"#$%>%%6\"%-*\"3\'()* \"+*,$ %-*\"( .?02 0( =&(5 -,%6789:;(#**,-\"<( 3\'(.&02@AB90（/1（“6$7*”8\'6“860”）（/1（“6$7*”8\'6“860（3（“6$7*”967<6！”）#$%@AB90（/1（“6$7*”8\'6“860”）（/1（“6$7*”8\'6“860）（3（“6$7*”图7：使用的卷积网络的层结构）。另一个网络是Tsantekidis等人（2017b）中提出的用于股票价格预测的LSTM网络）. LSTM网络结构如图8所示。该网络由一个LSTM层组成，该层有40个隐藏的神经元，然后是Maas等人（2013）定义的一个完全连接的LeakyReLu单元。！\"#$%&\'()* \"+*,$ %-*\"( ./0(/120( 34(5-,%6783\'()* \"+*,$ %-*\"( ./020( 34(5-,%6789:;(#**,-\"<( .&023\'()* \"+*,$ %-*\"( .=020( =&(5-,%6783\'()* \"+*,$ %-*\"( .=020( =&(5-,%6789:;(#**,-\"<( .&02\'6\"860 (=&(\"6$7* \"8\'6\"860 (3(\"6$7*\"!\"#$%>%%6\"%-*\"3\'()* \"+*,$ %-*\"( .?020( =&(5-,%6789:;(#**,-\"<( 3\'(.&02@AB90（/1（“6$7*”8\'6“860（/1（“6$7*”8\'6“860（3）（“6$7*”967<6！”））#$%@AB90（/1（“6$7*”8\'6“860（/1（“6$7*”8\'6“860（3）（“6$7*“图8：所使用的LSTM网络的层次结构。CNN LSTM注意网络是本文中最复杂的模型，旨在通过跳跃预测的特征和时间域来学习最重要的模式，并对不同的特征进行最佳加权以预测跳跃。其构造如下。输入后连接的第一层是注意层，即由多个Keras组分组成：使用每个时间步的重量创建一个具有tanh活化的规则致密层，衰减到一维，并进一步应用softmaxactivation。

28楼

mingdashike22

发表于 2022-6-25 04:13:16

该层在每个步骤中重复一次，以将注意力应用于全职步骤。然后切换维度以匹配原始输入形状，并通过将注意力模型的激活与原始输入层的输入值相乘来合并。这为每个特征赋予了自己的权重，以便在一个示例中，相同的特征在所有给定的时间步上都具有相同的权重。由此产生的注意机制输出是原始输入大小的矩阵，该矩阵被传递到具有32个大小为5的滤波器的1D卷积层。使用大小为2的最大池进一步处理卷积输出，最大池激活传递到包含40个relu神经元的LSTM层。LSTM还包括0.5个常规连接和重复连接。在LSTM之后，有一个大小相同的规则密集的完全连接层，最后是具有sigmoidactivation的奇异输出神经元。这意味着输出是[0，1]范围内的单个值，然后四舍五入以获得类预测。拟议的网络结构如图9所示。！\"#$%&\'()* \"+*,$ %-*\"( ./0(/120( 34(5-,%6783\'()* \"+*,$ %-*\"( ./020( 34(5-,%6789:;(#**,-\"<( .&023\'()* \"+*,$ %-*\"( .=020( =&(5-,%6783\'()* \"+*,$ %-*\"( .=020( =&(5-,%6789:;(#**,-\"<( .&02\'6\"860 (=&(\"6$7* \"8\'6\"860 (3(\"6$7*\"!\"#$%>%%6\"%-*\"3\'()* \"+*,$ %-*\"( .?020( =&(5-,%6789:;(#**,-\"<( 3\'(.&02@AB90（/1（“6$7*”8\'6“860（/1（“6$7*”8\'6“860（3（“6$7*”967<6！”）#$%@AB90（/1（“6$7*”8\'6“860（/1（“6$7*”8\'6“860（3（“6$7*）图9：CNN LSTM注意网络的层结构）。此外，注意层包含重复的单个神经元层，以在时间步长的基础上应用激活。4.1。性能测量使用多个指标评估网络性能）。

29楼

大多数88

发表于 2022-6-25 04:13:19

主要目标是F1score，它被定义为精度和召回的调和平均值：F 1=召回+精度（6）召回被定义为召回=tptp+fn（7）和精度asprecision=tptp+fp（8），其中tp为真正，跳跃样本数被正确分类为跳跃；fn为假阴性，跳跃错误分类为阴性样本；fp为假阳性，阴性样本错误分类为跳跃。因此，回忆是被分类为跳跃的跳跃部分，而精度是被分类为跳跃的样本中真实跳跃样本的部分（Lipton et al.，2014）。高召回率意味着可以检测到大部分跳跃扫描，而高精度意味着可以检测到跳跃，而无需将许多非跳跃样本分类为跳跃。应该注意的是，精确性和回忆性都不考虑真实否定的数量。这也使得F1独立于准确分类的负片的比率，而是将重点放在正确分类正片上。因此，F1提供了一种非线性和非对称的测量方法。F1通常用于正类与负类相比罕见的情况（Lipton et al.，2014）。由于数据中跳跃的比例非常小，F1是一个合适的度量。成功预测无跳转的信息量也比在相对较少的误报数下成功预测无跳转的信息量要少，因为只要始终预测不会有跳转，就可以获得很好的准确性。用F1来衡量结果也可以避免这种情况，因为正确的否定不会影响分数。另一个使用的指标是科恩的Kappa：κ=po- pc1- pc，（9），可根据混淆矩阵计算Po和Pcc（Cohen，1960）。由于Kappa也偶然考虑到了协议，因此它可以被视为一种更为稳健的协议衡量标准。

30楼

能者818

发表于 2022-6-25 04:13:23

对于什么可以被认为是好的Kappa值，没有单一的解释，因此它取决于所分析问题的类型。Fleiss等人（2003年，第604页）给出的区间值大于0.75表示良好一致，大于0.40表示良好一致，小于0.40表示较差一致。相反，Landis和Koch（1977）认为，0.21-0.40的值已经是公平的，0.41-0.60是中等的，0.61-0.80是实质性的，高于此值的值几乎是完美的。4.2. 主要结果所用网络的性能通过表5中所有股票和集合的平均得分来表示。由于数据不平衡，我们认为F1是最合适的性能度量，因此F1值在表中以粗体显示。下表显示，在所有测试的网络中，CNN–LSTM–Attentionmodel的所有样本的F1平均值最高（约为0.72）。第二个最好的网络是纯LSTM（0.69），其次是CNN（0.66）和CNN-LSTM-v，其中除了使用一天中的时间（特征v）外，没有使用其他信息。最后，MLPAC的F1平均值为0.53。所有模型都明显优于随机分类，其中F1为0.32。此外，根据表6，当比较股票的平均F1s时，CNNLSTM注意力模型再次表现最好。对于所有经过测试的网络模型，得出的F1s高于随机分类的F1s。MLP稍差一些，可能是因为无法在不过度学习的情况下处理相当大的时间序列输入数据，但它仍然明显优于随机选择。分数表明，数据中至少有一部分跳跃是可以预测的，并且具有合理的置信度。此外，在解释Kappa得分时，两个LSTM模型的得分即使不是很好，也至少是好的。

[量化金融] 股票价格跳跃到达的预测：基于新注意的 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群