楼主: nandehutu2022
1965 21

[量化金融] 时间序列预测的深度自适应输入归一化 [推广有奖]

  • 0关注
  • 5粉丝

会员

学术权威

74%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
69.4321
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24246 点
帖子
4004
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-20

楼主
nandehutu2022 在职认证  发表于 2022-6-14 04:45:54 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Deep Adaptive Input Normalization for Time Series Forecasting》
---
作者:
Nikolaos Passalis, Anastasios Tefas, Juho Kanniainen, Moncef Gabbouj,
  Alexandros Iosifidis
---
最新提交年份:
2019
---
英文摘要:
  Deep Learning (DL) models can be used to tackle time series analysis tasks with great success. However, the performance of DL models can degenerate rapidly if the data are not appropriately normalized. This issue is even more apparent when DL is used for financial time series forecasting tasks, where the non-stationary and multimodal nature of the data pose significant challenges and severely affect the performance of DL models. In this work, a simple, yet effective, neural layer, that is capable of adaptively normalizing the input time series, while taking into account the distribution of the data, is proposed. The proposed layer is trained in an end-to-end fashion using back-propagation and leads to significant performance improvements compared to other evaluated normalization schemes. The proposed method differs from traditional normalization methods since it learns how to perform normalization for a given task instead of using a fixed normalization scheme. At the same time, it can be directly applied to any new time series without requiring re-training. The effectiveness of the proposed method is demonstrated using a large-scale limit order book dataset, as well as a load forecasting dataset.
---
中文摘要:
深度学习(DL)模型可以成功地用于处理时间序列分析任务。然而,如果数据没有得到适当的规范化,DL模型的性能可能会迅速退化。当DL用于金融时间序列预测任务时,这个问题更加明显,因为数据的非平稳性和多模态性带来了重大挑战,并严重影响了DL模型的性能。在这项工作中,提出了一种简单而有效的神经层,该神经层能够自适应地规范化输入时间序列,同时考虑数据的分布。该层采用反向传播以端到端的方式进行训练,与其他经过评估的规范化方案相比,该层的性能有了显著的提高。该方法不同于传统的归一化方法,因为它学习如何对给定任务执行归一化,而不是使用固定的归一化方案。同时,它可以直接应用于任何新的时间序列,而无需重新培训。通过一个大型限价订单数据集和一个负荷预测数据集验证了该方法的有效性。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--

---
PDF下载:
--> Deep_Adaptive_Input_Normalization_for_Time_Series_Forecasting.pdf (362.45 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:时间序列预测 时间序列 归一化 Applications Improvements

沙发
大多数88 在职认证  发表于 2022-6-14 04:45:58
时间序列预测的深度自适应输入规范化(Deep Adaptive Input Normalization for Time Series Forecasting)Kolaos Passalis、Anastasios Tefas、Juho Kanniainen、Moncef Gabbouj和Alexandros Iosi fi disAbstract Deep Learning(DL)模型可用于处理时间序列分析任务,取得了巨大成功。然而,如果数据没有适当的标准化,DL模型的性能可能会迅速退化。当NDL用于金融时间序列预测任务时,这一问题更加明显,因为数据的非平稳性和多模态性带来了重大挑战,并严重影响了DL模型的性能。在这项工作中,提出了一种简单而有效的神经层,它能够自适应地规范化输入时间序列,同时考虑数据的分布。建议层使用反向传播以端到端的方式进行训练,与其他评估过的规范化方案相比,可以显著提高性能。该方法不同于传统的归一化方法,因为它学习如何对给定任务执行归一化,而不是使用固定的归一化方案。同时,它可以直接应用于任何新的时间序列,而无需重新训练。该方法的有效性通过一个大规模的极限订单数据集和一个负荷预测数据集进行了验证。指数术语时间序列预测、数据规范化、limitorder book数据、深度学习。引言预测时间序列是一个越来越重要的主题,在各个领域有多种应用【1】、【5】、【13】、【15】、【16】、【19】、【23】、【34】。现在,这些任务中的许多都是使用强大的深度学习(DL)模型来完成的【6】、【8】、【14】、【29】、【31】,这通常会导致最先进的结果优于以前使用的方法。

藤椅
kedemingshi 在职认证  发表于 2022-6-14 04:46:01
然而,由于数据的非平稳性和多模态性,将深度学习模型应用于时间序列具有挑战性。这一问题在金融时间序列中更为明显,因为随着时间的推移,由于多种原因,如市场波动,金融数据可能表现出显著不同的行为。为了使用时间序列数据训练深度学习模型,必须首先对数据进行适当的规范化。也许在使用DL时,最广泛使用的时间序列归一化方案是z分数归一化,即减去数据的平均值并除以其标准偏差。然而,z分数归一化无法有效处理非平稳时间序列,因为用于归一化的统计数据在训练和推理期间都是固定的。芬兰坦佩雷大学信息技术与通信学院最近的几项工作试图解决这一问题,包括Nikolaos Passalis、Juho Kanniainen和Moncef Gabbouj。Anastasios Tefas是希腊塞萨洛尼基亚里士多德大学信息学学院的学生。Alexandros Iosi fidis就职于丹麦奥胡斯大学工程、电气和计算机工程系。电子邮件:nikolaos。passalis@tuni.fi, tefas@csd.auth.gr,juho。kanniainen@tuni.fi,moncef。gabbouj@tuni.Fi,alexandros。iosi公司dis@eng.au.dkissue要么采用更复杂的规范化方案【17】、【21】、【25】,要么使用精心制作的固定特征【32】。

板凳
何人来此 在职认证  发表于 2022-6-14 04:46:05
尽管这些方法在用于训练深度学习模型时可以带来略好的性能,但它们存在着明显的缺点,因为它们主要基于启发式设计的规范化/特征提取方案,例如使用价格变化百分比而不是绝对价格等。,虽然没有实际保证所设计的方案对于手头的任务来说确实是最佳的。为了克服这些限制,我们提出了一个深度自适应输入归一化(DAIN)层,该层能够a)学习如何对数据进行归一化,b)根据当前时间序列测量值的分布,在推理过程中自适应地更改应用的归一化方案,从而有效地处理非平稳和多模态数据。所提出的方案易于实现,可以使用反向传播以端到端的方式与深度模型的其余参数一起直接训练,并可以显著提高预测精度。实际上,正如我们在第三节中进行的实验所示,由于原始时间序列直接反馈给所使用的深度学习模型,因此所提出的方法允许直接训练深度学习模型,而无需对数据进行任何形式的归一化。这项工作的主要贡献是提出了一个深度学习层,学习如何根据数据的分布而不是使用固定的标准化方案对数据进行标准化。为此,拟定的层由三个子层组成,如图所示。

报纸
nandehutu2022 在职认证  发表于 2022-6-14 04:46:08
1、第一层负责将数据转移到特征空间的适当区域(居中),而第二层负责线性缩放数据,以增加或减少其方差(标准化)。第三层负责执行选通,即非线性抑制与当前任务无关或不可用的特征。请注意,上述过程是自适应的,即所应用的规范化方案取决于反馈给网络的实际时间序列,并且也是可训练的,即所提议的层的行为方式是使用反向传播来适应手头的任务的。使用一个由450万个限价订单组成的大型限价订单数据集[20]和一个负荷预测数据集[9]来评估所提出方法的有效性。该方法的开放源代码实现,以及用于复制本文中进行的实验的代码,可在https://github.com/passalis/dain.To据我们所知,这是SummaryAgergatoraptiveshiftingadaptivescaling首次()-()()= (-)()()()()深层神经网络输入时间序列归一化时间序列深层自适应输入归一化层汇总聚合器()=⊙sigm(+)()()()自适应()汇总聚合器()图1:。深度自适应输入归一化层(DAIN)的体系结构提出了一种自适应的、可训练的归一化方案,并在深度神经网络中得到了有效的应用。

地板
mingdashike22 在职认证  发表于 2022-6-14 04:46:10
与常规的标准化方法(如z分数标准化)不同,建议的方法a)学习如何对手头的任务进行标准化(而不是使用事先计算的固定统计数据),b)有效利用所有可用特征的信息(而不是仅单独使用时间序列每个特征的信息)。所提出的方法还与深度神经网络的现有规范化方法有关,例如批量规范化【11】、实例规范化【10】、层规范化【2】和组规范化【33】。然而,这些方法实际上并不是为规范化输入数据而设计的,最重要的是,它们仅仅基于在训练/推理期间计算的统计数据,而不是学习动态规范化数据。值得注意的是,使用非线性神经层对数据进行自适应归一化并不简单,因为这些层通常首先需要归一化数据才能正常工作。在这项工作中,首先使用两个稳健且仔细初始化的线性层来估计数据应如何居中和缩放,然后使用非线性层对数据进行处理,该非线性层对前两层的输出进行操作,有效地克服了这一限制。论文的其余部分结构如下。首先,第二节对所提出的方法进行了分析描述。然后,在第三节中提供了广泛的实验评估,而在第四节第二节中得出了结论。深度自适应输入规范化let{X(i)∈ Rd×L;i=1。。。,N} 是N个时间序列的集合,每个时间序列由L d维度量(或特征)组成。符号x(i)j∈ Rd,j=1,2,Lis用于表示在时间序列i的时间点J观察到的d特征。

7
何人来此 在职认证  发表于 2022-6-14 04:46:13
也许最广泛使用的规范化形式是对时间序列的每个特性进行z分数缩放。请注意,如果数据不是由单峰高斯分布生成的,则使用平均值和标准偏差可能会导致次优结果,尤其是如果每个模式周围的统计数据彼此显著不同。在这种情况下,可以认为应该以模式感知的方式对数据进行规范化,允许形成不依赖于数据实际模式的公共表示空间。尽管这个过程可以丢弃有用的信息,但由于模式可以为识别每个时间序列提供有价值的信息,同时它也会阻碍模型的泛化能力,尤其是预测任务的泛化能力。下面的例子可以更好地理解这一点:假设两个紧密关联的公司股价非常不同,例如分别为1美元和100美元。尽管这两支股票的价格走势可能非常相似,但经过训练的预测模型只会观察到两种非常遥远的模式(如果将原始时间序列输入模型)周围的非常小的变化。因此,完全丢弃模式信息可能会提高模型处理此类情况的能力,正如我们将在第三节中进一步演示的那样,因为这两种股票将具有非常相似的表示。所提出方法的目标是了解如何通过适当的移位和缩放将测量值x(i)j归一化:~x(i)j=x(i)j- α(i) β(i),(1)式中 是Hadamard(entrywise)除法运算符。请注意,全局z分数归一化是一种特殊情况,α(i)=α=[u,u,…,ud],β(i)=β=[σ,σ。

8
大多数88 在职认证  发表于 2022-6-14 04:46:16
,σd],其中uk和σk表示第k个输入特征的全球平均值和标准偏差:uk=NLNXi=1LXj=1x(i)j,k,σk=VuTutnlnxi=1LXj=1x(i)j,k- uk.然而,正如已经讨论过的那样,对于归一化每个可能的测量向量,所获得的α和β估计值可能不是最佳的,因为数据的分布可能会显著漂移,从而使先前对这些参数的选择无效。当数据是多模态的时,这个问题变得更加明显,例如,当使用表现出显著不同行为(价格水平、交易频率等)的不同股票的时间序列数据训练模型时。为了克服这些限制,我们建议动态估计这些数量,并通过隐式估计每个度量值产生的分布来分别规范化每个时间序列。因此,在这项工作中,我们建议对每个时间序列进行归一化,以便α和β被学习并依赖于当前输入,而不是使用整个数据集计算的全局平均值。图1总结了提议的架构。首先,通过平均所有L个测量值来提取时间序列的摘要表示:a(i)=LLXj=1x(i)j∈ Rd.(2)此表示法提供了当前时间序列平均值的初始估计,因此,可以使用它来估计生成当前时间序列的分布,以便适当修改规范化过程。然后,使用提取的总和表示的线性变换定义移位运算符α(i):α(i)=Waa(i)∈ Rd,(3)其中Wa∈ Rd×dis第一个神经层的权重矩阵,负责将测量值在每个维度上移动。

9
大多数88 在职认证  发表于 2022-6-14 04:46:19
采用线性转换层(linear transformationlayer)可确保所提议的方法能够处理未适当规范化(甚至根本未规范化)的数据,从而允许以端到端的方式训练所提议的模型,而无需处理稳定性问题,如激活函数饱和。这一层被称为自适应移位层,因为它估计在将数据馈送到网络之前必须如何进行移位。注意,这种方法允许利用不同特征之间可能的相关性来执行更健壮的规范化。使用(3)中所述的过程将数据居中后,必须使用缩放运算符β(i)对数据进行适当缩放。为此,我们计算一个更新的总和表示法,该表示法对应于数据的标准偏差:b(i)k=vuutLLXj=1x(i)j,k- α(i)k, k=1,2,d、 (4)然后,缩放函数可以类似地定义为该摘要表示的线性变换,允许缩放每个偏移的测量值:β(i)=Wbb(i)∈ Rd,(5)其中Wb∈ Rd×dis缩放层的权重矩阵。该层称为自适应缩放层,因为它估计在将数据馈送到网络之前必须缩放数据。此外,请注意,此过程对应于根据数据的方差缩放数据,如使用z-scorenormalization执行的那样。最后,将数据馈送至自适应选通层,该选通层能够抑制与任务无关或对任务不有用的特征,例如:x(i)j=▄x(i)j γ(i),(6),其中 是Hadamard(entrywise)乘法运算符,γ(i)=sigm(Wcc(i)+d)∈ Rd,(7)sigm(x)=1/(1+exp(-x) )是sigmoid函数,Wc∈Rd×d和d∈ Rd是选通层的参数,c(i)是第三个汇总表示,计算公式为:c(i)=LLXj=1x(i)j∈ Rd。

10
nandehutu2022 在职认证  发表于 2022-6-14 04:46:22
(8) 请注意,与之前的层相比,该层是非线性的,并且能够抑制归一化特征。这样,与切换时的任务无关的特征可能会损害网络的泛化能力,例如,方差过大的特征可以在馈送到网络之前进行适当过滤。总的来说,α(i)、β(i)、γ(i)取决于窗口i上的当前“局部”数据和Wa、Wb、Wc、d的“全局”估计,这些估计是使用时间序列上的多个样本{X(i)进行训练的∈ Rd×L;i=1。。。,M} ,其中M是训练数据中的样本数。建议的规范化层的输出称为深度自适应输入规范化(DAIN),只需通过其三个层进行前馈即可获得,如图1所示,而各层的参数在推理过程中保持不变。因此,在推理过程中不需要额外的培训。使用梯度下降法,可以以端到端的方式直接学习生成的深层模型的所有参数:(9)Wa、Wb、Wc、d、W= -ηηaLWa,ηbLWb,ηcLWc,ηcLdLW式中,L表示用于训练网络的损失函数,W表示建议层之后的神经网络的权重。因此,建议的规范化方案可用于每个深度学习网络的顶部,并可使用规则反向传播算法对产生的架构进行训练,如第三节中的实验所示。请注意,每个子层的参数使用单独的学习速率,即ηa,η带ηc。由于不同子层参数之间的结果梯度存在巨大差异,这对于确保所提方法的平滑收敛至关重要。三、

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-30 03:10