楼主: nandehutu2022
1405 35

[量化金融] 金融时间序列的时间注意增强双线性网络 [推广有奖]

21
何人来此 在职认证  发表于 2022-6-2 17:06:36
虽然注意力机制可以放在纽约,因为特征向量是从10个事件的块中提取出来的,我们只使用给定特征向量的前40个维度,与blockTABLE II中最后一个事件的价格和数量相对应的实验结果是:设置2模型精确度%精确度%召回率%F1%预测范围H=10SVM[48]-39.62 44.92 35.88MLP[48]-47.81 60.78 48.27CNN[47]-50.98 65.54 55.21LSTM[48]-60.77 75.92 66.33A(BL)29.21 44.08 48.14 29.47A(TABL)70.13 56.28 58.26 56.03B(BL)78.37 67.89 67.71B(TABL)78.91 68.04 71.2169.20C(BL)82.52 73.89 76.22 75.01C(TABL)84.70 76.95 78.44 77.63预测层位H=20SVM【48】-45.08 47.77 43.20MLP【48】-51.33 65.20 51.12CNN【47】-54.79 67.38 59.17LSTM【48】-59.60 70.52 62.37A(BL)42.01 47.71 45.38 38 38.61A(TABL)62.54 52.36 50.96 50.69B(BL)70.33 62.97 60.64 61.02B(BL)TABL)70.80 63.14 62.25 62.22C(BL)72.05 65.04 65.23 64.89C(TABL)73.74 67.18 66.94 66.93预测层位H=50SVM【48】-46.05 60.30 49.42MLP【48】-55.21 67.14 55.95CNN【47】-55.58 67.12 59.44LSTM【48】-60.03 68.58 61.43A(BL)51.92 51.59 50.35 49.58A(TABL)60.15 59.05 55.71 55.87B(BL)72.16 71.28 68.69 69 69.40B(TABL)75.58 74.58 73.09 73.64C(BL)78.96 77.85 77.04 77.40C(TABL)79.87 79.05 77.04 78.44层,我们认为网络更有益于高层代表,这类似于v isu张力机制,该机制是在应用了几个溶液层之后应用的【35】。在我们的实验中,我们没有尝试通过将注意力机制简单地纳入最后一层r.C.实验设置来验证所有可能应用注意力机制的位置。以下实验设置应用于上一小节中提到的所有网络配置。我们用两种类型的随机优化工具训练网络进行了实验:SGD(60)和Adam(61)。

22
kedemingshi 在职认证  发表于 2022-6-2 17:06:39
对于SGD,Nesterov动量设置为0.9,而对于Adam,倒立二阶矩的指数衰减率分别固定为0.9和0.999。当训练集中的损失停止减少时,两个优化器的初始学习率都设置为0.01,并按以下学习率计划降低={0.01、0.005、0.001、0.0005、0.0001}。总的来说,所有配置都经过最多200个时代的培训,最小批量为256个样本。关于正则化技术,我们使用了衰减和最大范数的组合[62],这被证明可以提高网络的泛化能力。退出应用于所有隐藏层的输出,固定百分比为0.1。Max-n orm调节器是一种权重约束,它在神经元传入权重的lnorm上强制一个n绝对上界。从集合{3.0、5.0、7.0}验证最大范数。虽然权重衰减是深度神经网络训练中一种流行的正则化技术,但我们的探索性实验表明,在训练双线性结构时,权重衰减不是一种合适的正则化方法。我们采用了[46]中提出的类似方法来加权损失函数中e a ch c la ss的贡献。由于评估的网络结构输出类membe rshipprobability向量,因此使用加权熵损失函数:L=-Xi=1cNiyilog(~yi)(13),其中Ni,yi,~yi分别是第i类的样本数、真实概率和预测概率。c=1e6是一个常数,用于通过避免损失值除以Ni时太小来确保数值稳定性。除TABL层的注意权重W和λ外,所有评估的网络均采用[63]中提出的rando最小化方案进行初始化。

23
能者818 在职认证  发表于 2022-6-2 17:06:42
随机初始化wm可能会导致层错误地关注putpart中的重要信息,从而导致网络陷入糟糕的局部极小值。我们将λ=0.5和W中的所有元素通过常数t等式1/t进行了归一化,t是第二个模的输入维数。通过使用常量初始化W,我们可以通过对所有时态实例进行同等关注来确保层启动。D、 实验结果根据前面小节中详细介绍的实验设置,我们评估了Setup1和Setup2中提出的网络结构。除了我们提出的网络结构的性能外,我们还报告了来自不同模型的所有可用实验结果,包括RidgeRegression(RR)、单层前馈网络(SLFN)、线性判别分析(LDA)、多线性判别分析(MDA)、多线性时间序列回归(MTR)、加权多线性时间序列回归(WMTR)[46],Setup1中的多线性类特异性判别分析(MCSDA)[42],特征袋(BoF),神经特征袋(N-BoF)[55],Setup2中的支持向量机(SVM),多层感知器(MLP),卷积神经网络(CNN)[47]和LSTM[48]。由于数据集与属于station ary类的大多数样本不平衡,我们根据每个类的平均F1分数调整了超参数,这是在训练集上测量的精确度和召回率之间的权衡。在最佳参数设置下,平均0 25 50 75 100 125 150 175 200个时代平均注意运动:减少T-9t-8t-7t-6t-5t-4t-3t-2t-1t0 25 50 75 100 125 150 175 200个时代平均注意运动:增加图。3.

24
nandehutu2022 在职认证  发表于 2022-6-2 17:06:45
在3种运动类型的训练中,10个时间实例的平均注意力:减少、静止、增加。从Setup2中的配置A(表)中获取的值,地平线H=10测试集的性能超过9倍,将在SETUP1中报告,而在Setup2中,每个网络配置将进行5次培训,并报告测试集超过5次运行的平均性能。除了主要的性能指标F1外,我们还报告了相应的准确率、每类平均准确率和平均召回率,也称为敏感度、pe r类。表I和表II分别表示设置1和设置2的实验结果。如表1所示,Setup1中的所有竞争模型都属于浅层体系结构,最多有2个隐藏层(c(BL)、c(TABL)和n BoF)。很明显,在所有预测范围内,所有双线性结构都大大超过了其他竞争模型,其中最佳性能来自于具有注意力机制的双线性网络。值得注意的是,从2个隐藏层与表格的配置中获得的平均F1比WMTRin[46]在Setup1中获得的先前最佳结果高出近25%。虽然NBoF和C(TABL)都是基于神经网络的结构,有两个隐藏层,但C(TABL)在所有水平上都超过NBoF近30%。这并不奇怪,因为在[46]中,基于双线性投影的回归模型甚至表现出NBoF,这表明通过单独学习独立性,不同模式在时间序列LOB数据预测中至关重要。虽然Setup1中的实验表明,通常的双线性结构和提议的注意机制执行了所有现有的扩展浅层体系结构的模型,但Setup2中的实验建立了传统的de ep Neural网络体系结构和提议的浅层双线性体系结构之间的比较。

25
能者818 在职认证  发表于 2022-6-2 17:06:48
即使有1个隐藏层,TABL的性能也与以前从LSTM网络获得的最先进的结果相似(H=20)或更好(H=1 0,50)。尽管有7个隐藏的la yers,但CNN模型远远不如推荐的模型。我们应该注意到,CNN p Proposedin【47】通过进化层逐渐提取局部时间信息。另一方面,评估d双线性结构从一开始就融合了全球温度口头信息,即第一层。CNN模型和双线性结构之间的比较可能表明,CNN后期(在一些进化层之后)学习到的全局时间线索失去了原始数据中存在的辨别性全局信息。与BL和TABL相比,很明显,添加注意机制可以提高双线性网络的性能,而参数的数量只有少量增加。更重要的是,注意力机制为进一步分析被关注的时间实例的贡献提供了机会。这可以通过点击注意力遮罩A来完成。在训练过程中,A中的每个元素表示'X中的对应元素接收到的注意力量。为了观察输入数据中10个事件中的每一个对表IIA的贡献,最先进模型的平均计算时间建模向前(毫秒)向后(毫秒)总计(毫秒)C(BL)0.0253 0.0327 0.0580C(TABL)0.0254 0.0344 0.0598CNN 0.0613 0.1100 0.1713LSTM 0.2291 0.3487 0.57780 25 50 75 100 125 150 175 200个时代0.8000.8250.8500.8750.9000.9250.9500.975Lamb达菲格。4、在Setup2中的A(TABL)中训练时对应的λ,水平h=10决策函数,我们分析了Setup2中的配置A(TABL)在训练过程中的统计数据,水平h=10。

26
nandehutu2022 在职认证  发表于 2022-6-2 17:06:51
图3绘制了A中每个列的平均注意力值,该值对应于模型在训练过程中对每个时间实例的平均注意力。这三个图对应三种中等价格运动类型的注意模式。很明显,给定的模型更多地关注一些事件,例如秒(t- 1) ,第三(t- 2) 和第四(t- 3) 所有运动类型中最新的。虽然减少和增加类的注意模式相似,但与固定类的注意模式相比,注意模式有所不同。这表明,当中间价将从其平衡点移动时,模型可以将注意力转移到不同的事件上,以检测未来的变化。图4显示了每次训练过程结束后,同一模型中λ的对应值。如图4所示,λ在稳定接近1之前的前几个步骤中出现,这说明了第III-B节中所述的λ所表现出的软注意。由所支持的基于注意的层给出的对注意模式和每个事件接收到的注意量的洞察可以促进进一步的定量分析,如伤亡或伪周期分析。表III报告了在CPU核为i7-4790、内存为32 GB的同一台机器上测量的C(BL)、C(TABL)、CNN(47)、LSTM(48)的平均计算时间。

27
可人4 在职认证  发表于 2022-6-2 17:06:55
第二列、第三列和最后一列显示了最先进模型中单个样本向前传球、向后传球和一次训练传球所用的平均时间(毫秒)。很明显,提出的注意机制只会以相对较小的幅度增加计算成本。相反,以前提出的深度神经网络体系结构需要大约3倍(CNN)和10倍长的时间来训练或推理,而与所提出的体系结构相比,其性能较差。这表明,我们提出的体系结构不仅在性能上优于以前的最佳模型,而且在高频交易等应用中的效率和实用性也优于以前的最佳模型。五、 结论本文提出了一种新的多元时间序列数据分析的神经网络层类型。所提出的层覆盖了双线性投影的IDEA,并且是一种具有时间注意机制的增强层。我们对该层的复杂性进行了理论分析,并与现有的循环结构注意机制进行了比较,表明该层具有更低的内存和计算复杂性。在大规模限价订单数据集中的大量实验表明了所提出的体系结构的有效性:只有2个隐藏层,我们就可以大大超过现有的最先进模型。提出的时间注意机制不仅提高了双线性结构的性能,而且增强了可解释性。我们对培训过程中注意力模式的定量分析为今后研究兴趣模式提供了机会。附录ATABL导数为了计算TABL的导数,我们遵循以下符号:给定X∈RI×Jand X∈RM×N,Y型/X IJ×MN大小的isa矩阵,元素at(IJ,MN)等于Yij公司/Bmn。

28
何人来此 在职认证  发表于 2022-6-2 17:06:58
类似地L/十、∈R1×MN带L∈R、 X个∈RM×N.表示IM∈RM×m集成矩阵和1MN∈RM×Na矩阵,所有元素均等于1。此外,我们的推导过程中,他通常使用以下公式:(AXB)X=BT A(14)(A)⊙ (B)C=诊断vec(A)⊙BC+诊断vec(B)⊙A.C(15)其中 de注意到Kronecker积,vec(A)表示向量化操作符,该操作符将一列向量集中到r中,diag(x)表示diagona l矩阵,diagona l矩阵的diagona l元素取自x。我们继续计算左侧相对于右侧每个项的导数,从式(7)到式(1):o从式(7)\'\'XW=(ID′WX)W=XT ID′(16)\'\'XX个=(WXIT)W=IT W(17)o来自等式(8)E\'\'X=(ID′XW)(R)X=重量 ID′(18)EW=((R)XWIT)(R)X=IT?X(19)o来自等式(9)A/E由以下结果计算:αijeij=αij- αij,i、 j(20)αijeip=αij(1- αij)Pk6=j,pexp(eik),p 6=j(21)αijepq=0,p 6=i(22)o来自等式(1 0)XA=λ((R)X⊙ (A)A=λdiagvec((R)X)(23)X\'\'X=([λA+(1- λ) 1D′T]⊙(R)X)(R)X=诊断vec(λA+(1- λ) 1D′T)+ 诊断vec((R)X)⊙λA.\'\'X= 诊断vec(λA+(1- λ) 1D′T)+ 诊断vec((R)X)⊙A.EE\'\'X(24)Xλ=((R)X⊙ A.-式(11)中的“X”(25)ode注释“Y=~XW+B,式。

29
kedemingshi 在职认证  发表于 2022-6-2 17:07:02
(11) becomesY=φ((R)Y),我们有:YX=Y是的是的X=φ((R)Y)是的(ID′~XW)X=φ((R)Y)\'\'YWT ID′(26)YW=Y是的是的W=φ((R)Y)是的(XWIT)W=φ((R)Y)\'\'YITX(27)YB类=Y是的是的B类=φ((R)Y)是的(ID′位)B类=φ((R)Y)\'\'YIT ID′(28)其中φ((R)Y)/Y是元素wiseactivation函数的导数,它取决于氯离子的形式。在向后传球时L/Y和φ((R)Y)/是的,使用链式规则和上述结果,表中所需的导数可计算如下:LW=LYφ((R)Y)是的是的XX\'\'X\'\'XW(29)LW=LYφ((R)Y)是的是的XXA.A.EEW(30)Lλ=LYφ((R)Y)是的是的XXλ(31)LW=LYYW(32)LB类=LYYB(33)附录B基于注意力的学习的复杂性【3】中提出的基于注意力的顺序到顺序学习包括以下模块:o编码器zei=σWezxi+Uezhei-1+bez(34)rei=σWerxi+Uerhei-1+ber(35)~hei=tanhWexi+Ue(rei⊙ 嗨-1) +be(36)hei=(1- zei)⊙ 嗨-1+zei⊙hei(37)(38)oMemoryeij=vTαtanh(Wαhdj-1+Uαhei)(39)αij=exp(eij)PTk=1exp(ekj)(40)cj=TXi=1αijhei(41)oDecoderzdj=σwdzyj公司-1+Udzhdj-1+Czcj+bdz(42)rdj=σwdryj公司-1+Udrhdj-1+Crcj+bdr(43)~hdj=tanhwdyj公司-1+Ud(rdj⊙ hdj公司-1) +Ccj+bd(44)hdj=(1- zdj)⊙ hdj公司-1+zdj⊙hdj(45)yj=wTouthdj+about(46),其中i=1,T和j=1,T分别表示输入序列和输出序列中的索引,我们假设其长度相等。为了生成预测序列,而不是字典中某个单词的概率,我们使用类似于[56]的等式(46)。为了简化估计,让编码器、内存和反编码器模块中的隐藏单元数等于D′,即。

30
kedemingshi 在职认证  发表于 2022-6-2 17:07:05
hei,hdj,vα∈RD′,输出yjis ascalar。编码器模块估计以下参数:We、Wer、Wez∈RD′×D,Ue,Uer,Uez∈RD′×D′、be、ber、bez∈RD′,导致O(3D′D+3D′2+3D′)内存和O(T(3D′D+3D′2+8D′)计算。内存模块估计以下p参数:vα∈RD′,Wα,Uα∈RD′×D′,这需要O(2D′2+D′)内存和O(2D′2T+4TD′+T)计算。解码器模块估计以下参数:Udr、Udz、Ud、Cz、Cr、C∈RD′×D′、wdr、wdz、wd、bdz、bdr、bd、wout∈RD′,这导致inO(6D′2+7D′)内存和O(T(12D′+6D′2))。总的来说,注意力模型需要O(3D′D+11D′2+11D′)记忆和O(11T D′2+20T D′+4T D′+3T D′D+T)计算。Graves,A.-r.Mohamed和G.Hinton,“深度递归神经网络语音识别”,摘自《声学、语音和信号处理》(icassp),2013年ieee国际会议,第6645–6649页,ieee,2013年。[2] K。Cho,B.Van Merri¨enboer,C.Gulcehre,D.Bahdanau,F.Bogares,H.Schwenk和Y.Bengio,“使用RNN编码器-解码器学习短语表示用于统计机器翻译”,arXiv预印本XIV:1406.10782014。[3] D。Bahdanau,K.Cho和Y.Bengio,“通过联合学习对齐和翻译实现神经机器翻译”,arXiv预印本arXiv:1409.04732014。[4] Z.C.Lipton、D.C.Kale、C.Elkan和R.Wetzell,“学习使用LSTM递归神经网络进行诊断”,arXiv预印本XIV:1511.036772015。[5] M.Zabihi、A.B.Rad、S.Kiranyaz、M.Gabbouj和A.K.Katsaggelos,“使用无分段神经网络集成进行心音异常和质量检测”,摘自《心脏病学计算会议》(CinC),2016年,第613-616页,IEEE,2016年。[6] A。Iosi fidis,A.Tefas和I.Pitas,“类特定参考判别分析及其在人类行为分析中的应用”,IEEETransactions on Human Machine Systems,vol.45,no.3,pp。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-1 04:34