楼主: mingdashike22
1022 26

[量化金融] 对波动率预测的深度序列模型进行基准测试 [推广有奖]

11
大多数88 在职认证  发表于 2022-6-11 03:11:51
分层多尺度电流神经网络(HM-RNN)(Chung et al.,2016)旨在通过确定时间序列中的分层模式来建模复杂的时间依赖性。HMRNN的一个关键组件是参数化边界检测器(PBD),它在每个隐藏层中生成一个二进制值;HM-RNN依靠PBD确定最终确定细分市场的时间,以优化总体目标。快慢递归神经网络(FS-RNN)(Mujika et al.,2017)继承了HM-RNN和RHN的优点。FS-RNN以不同的时间分辨率处理信息,学习复杂的时间转换函数。3任务描述序列波动率预测的任务是在给定历史值的情况下,对波动率值进行一步预测。形式上,给定一系列序列数据X=(X,X,…,xT),序列模型是预测xT+1的值。这些模型是根据1步预测和labelvalue之间的NLL进行评估的。因此,损失函数可定义如下:L=-日志√2πσexp(-x个√2σ),(1)其中σ是一步超前模型预测。4序列神经模型本节详细介绍了波动性时间序列建模的基线。本文介绍了卷积神经网络和递归神经网络的最新进展。时间卷积网络(TCN)(Bai et al.,2018)是一种用于序列建模的卷积架构。据报道,与递归网络相比,TCN在几个顺序建模任务中实现了更高的评估指标和并行性。TCN主要由两个设计原则组成:网络输出与输入具有相同的长度,未来的信息泄漏被阻止到过去。采用一维全卷积网络(FCN)和随机卷积分别实现上述两点。

12
能者818 在职认证  发表于 2022-6-11 03:11:54
FCN将零填充添加到隐藏层,以便保留与透水层长度相同的后续层。偶然卷积保证当前时间步的计算只能访问来自当前输入和先前隐藏状态的信息。偶然卷积的一个主要缺点是,我们需要构建非常深入的网络和非常大的滤波器组,以便对复杂的顺序数据依赖性进行建模。从数学上讲,序列元素s上的一维扩展卷积运算F可以定义如下:F(s)=(x*df)(s)=k-1Xi=0f(i)·xs-d·i,(2)其中d是膨胀因子,k是过滤器大小,s- d·i代表过去的数据。TCN具有序列建模的几个优点。首先,TCN具有灵活的接受域大小,可以通过不同的方法改变它。例如,它可以增加每个隐藏层中过滤器的大小和延迟因子;隐藏层的数量还可以有效地增加接受域的大小,增强模型的记忆能力。其次,梯度可以沿不同的时间方向反向传播,从而缓解梯度爆炸和消失的问题。此外,TCN具有很高的并行性,因为卷积可以并行进行,避免了等待前辈完成计算。扩张递归神经网络(DigitalDRNN)(Chang等人,2017)的特点是多分辨率扩张递归跳跃连接。为了提取复杂的数据依赖关系,可以堆叠ExpandedRecurrent层,并且层间的膨胀呈指数增长。因此,ExplatedRnnis更适合建模非常长期的依赖关系。

13
能者818 在职认证  发表于 2022-6-11 03:11:57
扩展的跳过连接可以描述如下:clt=f(xlt,clt-sl),(3)其中c表示单元状态,l表示层,t表示时间步长。扩展的重复跳跃连接允许信息沿较少的边传播,这减少了模型参数的数量,并缓解了梯度爆炸和消失的问题。StackedDilatedRNN使不同的层专注于沿时间轴的不同分辨率,并增加建模长期依赖性的能力。与具有相同层数和每层扩张率的扩张卷积神经网络(如TCN)相比,扩张卷积神经网络具有相同的每个节点的循环边数,这表明这两种结构具有相同的模型复杂性。然而,DigitalDRNN能够运行超过两个周期,尤其是在GRU和LSTM的情况下。因此,ExplatedRnn据说比TCN具有更强的存储能力。(Chang等人,2017)独立递归神经网络(IndRNN)(Li等人,2018)旨在解决梯度消失和爆炸问题。与传统的RNN不同,IndRNN是作为多层感知器随时间观察的,它只从输入和它自己的前一个时间步长接收信息。同一层的神经元是断开的,因此相互独立。这表明一个神经元只专注于一种空间模式。IndRNN的形式描述如下:hn,t=σ(wnxt+unhn,t-1+bn),(4)其中wn和una分别是输入权重矩阵和递归权重矩阵的第n行。不同神经元之间的相关性可以反映在跨层的连接中。通过堆叠基本IndRNN层,可以构建深度IndRNN网络。

14
能者818 在职认证  发表于 2022-6-11 03:12:00
顶部隐藏层可以聚集来自较低隐藏层的不同空间模式,这可以提高复杂数据依赖性的显示能力。与以乙状结肠作为激活函数的叠加GRU相比,叠加IndRNN可以使用非饱和激活函数,如ReLU,从而避免了乙状结肠引起的衰减梯度问题。(Li等人,2018年)批量归一化处理可以在激活功能之前或之后直接应用。准递归神经网络(QRNN)(Bradbury et al.,2016)在卷积层和递归池函数之间交替。它的目标是改善由于当前时间步的计算依赖于以前的时间步而导致的低并行性。在相同的隐层结构下,叠加QRNN比叠加LSTM具有更好的预测精度。QRNN的每一层由两种类型的操作组成:卷积和循环池,这与典型CNN体系结构中的卷积层和池层非常相似。沿时间轴与过滤器组进行协同操作。采用掩蔽卷积(Van Oord et al.,2016)来防止将来的信息泄漏。过滤器组特别不允许获取未来信息,以计算给定的时间步长。在循环池函数中使用额外的独立过滤器组,以在每个时间步创建元素门,如忘记门和输出门。动态平均池(Balduzzi和Ghifary,2016)用于跨时间步混合多个状态。

15
可人4 在职认证  发表于 2022-6-11 03:12:03
假设池函数在每个时间步都需要一个遗忘门Ft和一个输出门Ota,那么完整的计算过程可以描述如下:Z=tanh(Wz* 十) F=σ(Wf* 十) O=σ(Wo* 十) ,(5)其中Wz、wf和wo是卷积滤波器,并且* 表示沿时间方向的屏蔽卷积。QRNN最显著的优点是卷积网络和递归网络的许多现有扩展可以直接应用于QRNN。正则化,如基于变量推理的辍学(Gal和Ghahramani,2016)和zoneout(Krueger等人,2016),可能是受LSTM启发的稳健扩展。Skip Recurrent Neural Network(SkipRNN)(Campos et al.,2017)通过学习跳过状态更新而丰富了现有的Recurrent网络,而没有明确的关于哪些样本对当前任务无用的信息。SkipRNN经过优化,可缩短计算图形的有效大小,减少长期依赖关系建模的更新次数。二进制状态更新门ut∈建议使用{0,1}来决定RNN是更新状态还是仅复制以前的状态。在每个时间步t,序列模型学习发出更新状态的概率,即^ut+1∈ [0, 1]. 整个过程如下所示:ut=fbinar-ize(^ut)st=ut·S(st-1,xt)+(1- ut)·st-1.^ut=σ(Wpst+b+p)^ut+1=ut·^ut+(1-ut)·(^ut+最小值(^ut,1-^ut)),(6)其中wp是权重向量,bp是偏差,fbinar size:[0,1]→ {0, 1}.学习跳过状态更新的好处在于几个方面。首先,更少的更新步骤back进一步传播梯度。复制以前的状态可以增加网络内存及其建模长期顺序依赖关系的能力。此外,较少的状态更新表明计算量较小,收敛速度较快,这使得模型训练比其他RNN变体容易得多。

16
kedemingshi 在职认证  发表于 2022-6-11 03:12:06
此外,学习跳过技术与当前神经网络的最新进展是正交的,因此可以与其他技术联合使用,例如归一化(Cooijmans et al.,2016;Ba et al.,2016)和正则化(Zaremba et al.,2014;Krueger et al.,2016)。SKIPRN的一个限制是模型性能和处理样本总数之间的权衡。由于某些应用环境,可能需要牺牲模型精度点(Cooijmans et al.,2016)。经常性公路网(RHN)(Zilly et al.,2017)将公路层(Srivastavaet al.,2015)纳入经常性过渡。他们使用自适应计算来训练非常深入的前馈神经网络。公路层的合并可以实现更大的逐步过渡,从而消除了使用深度过渡功能训练RNN模型的困难。公路层计算可以如下所示:y=h·t+x·c,(7)其中h=h(x,WH),t=h(x,WT),c=h(x,WC)分别是权重为WH,WT和WC的非线性变换结果,“·”表示变换器之间的元素相乘。基于Gersgorin圆定理,LSTM变量具有跨时间步有效调节其雅可比特征值的直接机制,这使得它们在建模复杂序列数据时比其他RNN变量更强大。理论上进一步证明,LSTM本质上是RHN的简化版本,但RHN具有更强的记忆能力来学习复杂的序列处理。分层多尺度递归神经网络(HM-RNN)(Chung等人,2016)旨在通过发现时间序列数据的层次结构来建模复杂的时间依赖关系。HM-RNN模型中的一个主要元素是参数化边界检测器(PBD),它在每个隐藏层中生成二进制值。

17
能者818 在职认证  发表于 2022-6-11 03:12:09
HM-RNN依靠PBD决定何时结束细分市场,以优化总体目标。根据边界的状态,每个隐藏层在每个时间步选择三个操作中的一个:复制、更新和刷新。对于具有L层的HM-RNN模型,L层中时间t的更新过程可描述如下:hlt、clt、zlt=flH M-R N N(clt-1,hlt-1,hl-1t,hl+1t-1,zl-1t),(8)其中z是边界状态,h和c分别表示隐藏状态和单元状态。复制操作只是在以前的时间步复制隐藏状态,并保持它们不变,直到它从较低的层接收到摘要输入。当检测到下层中的边界状态而未找到当前层中的边界时,将执行更新操作以更改当前层的汇总表示。如果发现边界,则将进行冲洗操作。然后执行以下两个子操作:弹出子操作将当前状态传递给上层,重置子操作在读取新段之前重新初始化当前层中的隐藏状态。快慢递归神经网络(FS-RNN)(Mujika et al.,2017)继承了HM-RNN和RHN的优点。FS-RNN以不同的时间分辨率处理信息,并学习从以前的时间步到下一个时间步的复杂过渡函数。FS-RNN体系结构由k个顺序连接的快速RNN单元F、F、…、,FK位于较低层次的隐藏层上,而一个较慢的RNN单元位于较高层次的层上。因此,下层称为快速层,上层称为慢速层。

18
大多数88 在职认证  发表于 2022-6-11 03:12:12
任意RNN单元的基本架构可以通过以下等式描述:hFt=fF(hFkt-1,xt)hSt=fS(hSt-1,hFt)hFt=fF(hFt,hSt)hFit=fFi(hFi-1t)用于3≤ 我≤ k(9)本质上,快速单元对长期序列依赖性建模的能力有限。借助慢速单元,模型中添加了较短的梯度传播路径,可以更有效地跟踪序列输入之间的距离依赖关系。因此,FS-RNN继承了多尺度RNN和深跃迁RNN的优点。请注意,任何RNN单元,如LSTM和GRU,都可以是FS RNN体系结构的基本计算单元。5实验5.1数据集和预处理利用真实股价时间序列数据对模型进行评估,以验证性能。RAW数据集包含1555个每日收盘股价的单变量时间序列。记录2018个工作日。股票价格序列的价值缺失或观察不足引入了噪音,可能对模型表现有很大影响。由于这些因素与波动率建模的最终目的无关,我们过滤掉了价值缺失或观察不足的股价时间序列。在过滤原始数据集后,我们得到1314个股票日价格时间序列作为清理后的数据集。然后,我们将原始股价转换为log returns xt=log(st/st-1) 并对变换后的序列进行归一化。

19
kedemingshi 在职认证  发表于 2022-6-11 03:12:15
我们将标准化数据集沿时间轴分为两个子集:每个时间序列数据的前1800个(80%)时间步组成训练子集,每个序列的其余213个(20%)时间步组成测试子集。表1:拟议模型与基线在测试子集上的负对数似然(NLL)性能比较。股票TCN扩张DRNN IndRNN QRNN SkipRNN HM-RNN FS-RNN RHN ARCH GARCH1 1.335 1.645 1.859 1.593 1.462 1.683 1.808 1.864 2.413 1.794 1.4022 1.415 1.812 1.784 1.985 1.646 1.604 1.927 1.896 1.865 1.624 1.5013 1.669 1.641 1 1 1.845 1.722 1.612 2 2 1.117 1.8202.521 2.512 1.6414 2.117 1.599 1.926 1.666 1.689 1.727 2.665 1.823 1.875 1.867 1.7065 1.405 1.587 1.829 1.715 1.758 1.694 1.722 1.848 2.1692.194 1.7756 1.405 1.625 1.781 1.494 1.955 1.764 1.628 1.999 1.622 1.569 1.5467 1.759 1.675 1.835 1.841 1 1.813 1.718 1.498 1.833 2.898 2.472 2 2.3018 1.683 1.605 1.840 1.536 1.667 1.769 1.916 1.830 2.651 2.571 2.1989 1.923 1.725 1.725 1 1.664 1.697 1.650 1.6711 1.841 3.431 3.243 3.29310 2.324 1.475 1.852 1.773 1.673 1.743 1.563 1.796 2.363 2.547 3.654平均值1.901 1.903 2.033 1.908 1.925 2.121 2.451 2.0442.432 2.084 2.0035.2模型实施我们评估和比较第4节中描述的所有卷积模型和回归模型。TCN被设计为由两个内核大小为5的隐藏层组成。每个hiddenlayer中的膨胀因子设置为2。对于归一化,我们将每个卷积滤波器的权重归一化(SalimasandKingma,2016)。DigitalDrnn将开始扩张设置为1,扩张因子设置为2。RHN通过设置C(·)=1n,与变换门耦合的进位门的电阻- T(·)。除了RHN采用LSTM之外,所有递归模型都采用GRU作为其基本架构。多层感知器将最后一个隐藏层投影到一维输出。

20
可人4 在职认证  发表于 2022-6-11 03:12:18
隐藏层和输出层中的默认激活函数是校正线性单位(ReLU)。所有权重矩阵均采用标准正态分布进行初始化。Adam(Kingma and Welling,2013)被选中优化模型参数。我们还应用了辍学(Srivastava et al.,2014)、梯度剪裁(Pascanu et al.,2013)和学习率退火来帮助训练深层模型。模型超参数由五次交叉验证确定。默认批次大小设置为64。除非另有规定,否则所有型号均在PyTorch中实现(Paszke等人,2017年),并在单一Nvidia TITAN XP GPU上运行。6结果和讨论表5.2列出了实验结果和性能。评估基于测试子集中每个序列的1步超前预测的负对数可能性。在十个随机选择的股票价格序列上比较基线。表5.2中还报告了所有1314系列区域的平均NLL。从根本上讲,包括TCN和DIAGETDRNN在内的扩展体系结构实现了对所有股票测试数据进行序列预测的最小NLL损失。这表明扩展神经网络在波动率建模和预测方面具有更高的灵活性和更强的表达能力。具体而言,扩张卷积神经网络(即TCN)的性能略优于扩张递归神经网络(即扩张DRNN)。还可以得出结论,卷积模型通常比回归模型更适合于波动率预测,因为TCNout执行所有研究的RNN。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-5 09:54