楼主: 大多数88
1357 22

[量化金融] 金融时间序列的时态Logistic神经特征包 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

67%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
70.8997
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
23294 点
帖子
3809
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
大多数88 在职认证  发表于 2022-6-11 11:31:52 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Temporal Logistic Neural Bag-of-Features for Financial Time series
  Forecasting leveraging Limit Order Book Data》
---
作者:
Nikolaos Passalis, Anastasios Tefas, Juho Kanniainen, Moncef Gabbouj,
  Alexandros Iosifidis
---
最新提交年份:
2019
---
英文摘要:
  Time series forecasting is a crucial component of many important applications, ranging from forecasting the stock markets to energy load prediction. The high-dimensionality, velocity and variety of the data collected in these applications pose significant and unique challenges that must be carefully addressed for each of them. In this work, a novel Temporal Logistic Neural Bag-of-Features approach, that can be used to tackle these challenges, is proposed. The proposed method can be effectively combined with deep neural networks, leading to powerful deep learning models for time series analysis. However, combining existing BoF formulations with deep feature extractors pose significant challenges: the distribution of the input features is not stationary, tuning the hyper-parameters of the model can be especially difficult and the normalizations involved in the BoF model can cause significant instabilities during the training process. The proposed method is capable of overcoming these limitations by a employing a novel adaptive scaling mechanism and replacing the classical Gaussian-based density estimation involved in the regular BoF model with a logistic kernel. The effectiveness of the proposed approach is demonstrated using extensive experiments on a large-scale financial time series dataset that consists of more than 4 million limit orders.
---
中文摘要:
从股市预测到能源负荷预测,时间序列预测是许多重要应用的重要组成部分。在这些应用程序中收集的数据的高维性、速度和多样性带来了重大而独特的挑战,必须认真解决每个问题。在这项工作中,提出了一种新的时间逻辑神经特征袋方法,可以用来解决这些挑战。该方法可以有效地与深度神经网络相结合,为时间序列分析提供强大的深度学习模型。然而,将现有BoF公式与深度特征提取器相结合带来了重大挑战:输入特征的分布不是固定的,调整模型的超参数可能特别困难,并且BoF模型中涉及的规范化可能会在训练过程中造成显著的不稳定性。该方法采用了一种新的自适应缩放机制,并用logistic核取代了常规转炉模型中基于高斯的密度估计,从而克服了这些局限性。在一个由400多万个限额订单组成的大规模金融时间序列数据集上进行了大量实验,证明了该方法的有效性。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
--> Temporal_Logistic_Neural_Bag-of-Features_for_Financial_Time_series_Forecasting_l.pdf (510.93 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:logistic logisti ogistic logist 金融时间序列

沙发
何人来此 在职认证  发表于 2022-6-11 11:31:57
金融时间序列预测的时态逻辑神经特征袋利用限额订单数据Nikolaos Passalis、Anastasios Tefas、Juho Kanniainen、Moncef Gabboujand和Alexandros Iosi fi DistractTime series预测是许多重要应用的关键组成部分,从股市预测到能源负荷预测。在这些应用程序中收集的高维、快速和多样的数据构成了重大而独特的挑战,必须认真解决每个挑战。在这项工作中,提出了一种新的时态LogisticNeural特征袋方法,可用于应对这些挑战。所提出的方法可以有效地与深度神经网络相结合,从而为时间序列分析建立强大的深度学习模型。然而,将现有的BoF公式与深度特征提取器相结合会带来重大挑战:输入特征的分布是不稳定的,调整模型的超参数可能特别困难,并且BoF模型中涉及的规范化可能会在训练过程中造成显著的不稳定性。该方法通过采用一种新的自适应缩放机制,并用logistic核代替常规转炉模型中基于高斯的经典密度估计,能够克服这些局限性。在由400多万份限额订单组成的大规模金融时间序列数据集上进行了大量实验,证明了所提议方法的有效性。*尼古拉斯·帕萨利斯(Nikolaos Passalis)、朱霍·坎尼亚宁(Juho Kanniainen)和蒙塞夫·加布伊(Moncef Gabbouj)是芬兰坦佩雷大学信息技术与通信学院的学生。Anastasios Tefas是希腊塞萨洛尼基亚里士多德大学信息学学院的学生。

藤椅
大多数88 在职认证  发表于 2022-6-11 11:32:00
Alexandros Iosi fidis就职于丹麦奥胡斯大学电气与计算机工程系。电子邮件:nikolaos。passalis@tuni.fi, tefas@csd.auth.gr,juho。kanniainen@tuni.fi,moncef。gabbouj@tuni.Fi,alexandros。iosi公司dis@eng.au.dk1时间序列预测是许多重要应用的重要组成部分,从预测金融市场的行为[5],到准确的能源负荷预测[13]。尽管如今可以从这些领域收集的大量数据为应用强大的深度学习(DL)方法提供了前所未有的机会[23、41、24],但这些数据的高维度、速度和多样性也带来了重大而独特的挑战,每种应用都必须认真应对。为此,人们提出了许多方法来分析和预测时间序列数据。例如,传统方法采用自适应距离度量,如动态时间包装[4],来处理此类任务。然而,随着DLS的出现,人们的兴趣逐渐转向使用基于神经网络的方法,包括递归和卷积结构[25,7],这似乎对处理此类数据更有效。值得注意的是,还存在其他时间序列分析方法,例如使用特征袋模型(BoF)[35]。BoF模型最近被用于高效处理大量复杂和高维时间序列[2、1、32],因为它能够分析由不同数量的特征组成的对象,并且比竞争方法更好地承受分布变化[29]。特征袋模型(BoF)涉及以下管道【35】:a)从每个输入对象中提取多个特征向量,例如图像或时间序列。

板凳
可人4 在职认证  发表于 2022-6-11 11:32:03
这一步被称为特征提取(featureextraction),它允许形成特征空间,其中每个对象都表示为一组特征向量。b) 学习一组具有代表性的特征向量(也称为码字),并将其用于量化提取的特征向量。这一步称为字典学习,而学习的码字形成字典(也称为码本)。c) 量化特征向量被聚合,以提取描述每个输入对象的语义内容/时间行为等的恒定长度表示。BoF模型能够成功地处理不同长度的对象,与其他方法相比具有重要优势,因为它允许有效地提取时间序列的恒定长度表示,而不管其实际长度如何。事实上,基于BoF的模型处理多个时间序列分析任务的能力已在文献[2、1、32]中得到证明。然而,这些方法主要使用使用简单手工特征的浅层模型,而不是使用功能更强大的深层特征提取层来提取更高级别的特征,这些特征可以更好地建模时间序列的动态【7,39】。在这项工作中,我们认为,将BoF模型与此类体系结构相结合可以显著提高时间序列预测算法的性能,因为BoF模型允许处理任意长度的时间序列,并能承受轻微的分布变化,同时使用深层特征提取器,如递归层和卷积层,允许考虑更详细的时间动态。这项工作的主要贡献是提出了一种新的袋式特性模型的logistic公式,该公式适用于时间序列预测的需要,并且可以有效地与深度神经网络相结合。

报纸
nandehutu2022 在职认证  发表于 2022-6-11 11:32:06
所提出的方法确实能够将转炉模型的优点与深度学习模型的巨大学习能力相结合,从而开发出强大的预测模型。然而,将现有的BoF公式与深度特征提取器相结合会带来巨大的挑战:输入特征的分布不是固定的,调整模型的超参数可能特别困难,而BoF公式中涉及的规范化可能会在训练过程中造成显著的不稳定性。研究发现,后者是在训练使用专家的深层模型方面存在困难的主要原因,并通过提出适当的自适应缩放方法来解决这一问题。此外,根据BoF模型的概率公式,常规BoF模型中涉及的经典基于高斯的密度估计被逻辑核所取代[3],从而进一步提高模型的性能,简化实现,而无需任何复杂的初始化方案或仔细调整任何超参数。此外,所提出的方法能够进行细粒度的时间建模,如图1所示,其中对时间序列的短期、中期和长期行为进行了建模。利用一个由400多万个限额订单组成的大规模金融时间序列数据集对所提出的方法进行了广泛评估。论文的其余部分结构如下。首先,简要介绍了相关工作,并与第2节中提出的方法进行了比较。然后,第3节介绍了所提出的方法,第4节提供了实验评估。最后,在第5.2节相关工作中得出结论。这项工作主要与使用BoF模型的时间序列分析有关。

地板
mingdashike22 在职认证  发表于 2022-6-11 11:32:09
近年来,越来越多的作品采用特征袋模型的变体来进行时间序列分析,例如预测、检索等。在【16】中,提出了一种基于BoF的方法,通过采用优化码本的判别目标来提取判别式表示。文献28中还使用了BoF模型的字典学习方法,以学习面向检索的表示。[17]中提出了一种用于学习动作识别表示的判别式BoF方法,而[15]中引入了一种基于dynemes的方法。其他较新的方法进一步将程序适应于时间序列分析,例如,在[2]中使用了不同长度的时间序列段,以便有效地处理翘曲,而在[1]中提出了一种采用时间建模的方法。最近,BoF模型的神经公式被用于执行时间序列分析【33】,而该方法的扩展允许更好地捕获时间序列的时间动态【32】。与文献[32]相比,在这项工作中,使用了逻辑神经BoF公式。这允许在不使用任何复杂的初始化方案和/或仔细调整任何超参数的情况下训练时间BoF模型,例如,【32】中采用的核函数的初始比例因子。此外,在这项工作中,我们研究了BoF模型与深度特征提取器相结合时的行为,并适当地设计了一种自适应缩放方法,使基于深度BoF的体系结构中的信息能够平滑流动。

7
可人4 在职认证  发表于 2022-6-11 11:32:12
据我们所知,这是首次将BoF模型的深层时间公式与深层特征提取层结合使用,并对其进行了适当调整,以满足特定应用程序的需要,证明确实有可能学习功能强大的时间序列分析深层学习模型,其性能优于其他具有竞争力的最新方法。3提出的方法在本节中,提出的时间逻辑神经特征袋公式(在本文其余部分中缩写为“TLo NBoF”)是推导出来的,并适用于高频限价订单数据的时间动力学建模的需要。此外,如第1节所述,直接采用BoF公式,例如N-BoF【30】,在深度神经网络中需要时间序列XI预处理输入特征向量SijNeural FeatureExtraction转换特征向量SijTlo NBoF Layers短期Lo NBoF中期Lo NBoF长期 Lo N完全连接的层(·)fWs(长)is(中)is(短)iUpStationaryDownFigure 1:时间序列预测的时态逻辑神经BoF(TLo-NBoF)架构。仔细调整多个超参数,例如,分别调整学习速率PER层,仔细选择激活函数和用于初始化网络参数的分布等。在本节中,我们深入研究了这些问题,研究神经BoF配方与深层神经网络相结合时出现困难的一些原因。然后,对所提出的模型进行适当的调整,以克服上述问题,允许直接使用它来学习时间序列分析中强大的深层神经网络结构。3.1时序逻辑神经特征袋t xibe N个训练时间序列集合的第i个时间序列,用X={X,X。

8
nandehutu2022 在职认证  发表于 2022-6-11 11:32:15
,xN}。然后,如文献[16、21、1、10]所述,可以使用几种不同的方法从每个时间序列中提取多个特征向量。也许最简单的方法是直接使用每个时间步的原始时间序列数据作为单独的向量[16]。根据应用情况,还提出了更复杂的方法。例如,在处理财务数据时,可以使用领域知识来设计和提取描述时间序列几个方面的更丰富的特征,例如,可以使用[21]中提出的方法从高频有限订单数据中提取多个特征向量。从xitime序列中提取的第j个特征向量用xij表示∈ RD,其中D是提取的特征向量的维数。然后,可以通过提取的特征向量集来描述每个时间序列,即,xi={xi1,xi2,…,xiNi},其中nis是第i个时间序列的长度。请注意,不同的时间序列可能具有不同的长度,因此建议的方法必须能够处理由不同数量的特征向量组成的对象。然后使用一系列神经变换层对提取的特征进行变换,如图1所示。所使用的神经特征提取器用fW(·)表示,其中W是特征提取层的参数(权重)。为此,可以使用任何(不同的)特征提取器,例如卷积层【38】、循环层【39、9】等。在这项工作中,1-D卷积层用于提取更高级别的特征,这些特征能够捕获后续特征向量之间的时间关系,从而更好地建模时间序列的动力学。在这些神经特征提取层之后,每个时间序列都可以由一组经过变换的更高层次的特征来表示。

9
mingdashike22 在职认证  发表于 2022-6-11 11:32:19
这些特征用x(t)ij=fW(xi,j)表示∈ RD,其中D为变换特征的维数。在这项工作中,D等于最后一个卷积层中使用的滤波器数量,因为卷积层用于转换输入特征。因此,在神经特征提取过程之后,第i个时间序列由x(t)i={xi1,xi2,…,xiNi}描述。尽管提取的特征向量x(t)ij捕获了有关时间序列动态的更高级别信息,但不可能直接将其用于分类目的(或任何其他数据分析任务),因为它们首先要聚合为具有恒定长度的表示,并且对于输入时间序列的长度是不变的。结果模型的性能和灵活性在很大程度上取决于将采用的聚合方法。例如,最直接的方法是将提取的特征直接转换为一个长向量,然后将该向量输入分类器。然而,这种方法不允许a)处理具有不同长度的时间序列,因为结果向量的长度取决于每个序列的长度,b)严重限制了模型处理时间包装/时间转换等以克服上述限制的能力,使用时态Logistic神经特征袋公式对提取的特征向量进行有效聚合。设V={V,V,…,vNK}为NK码字字典,用于量化使用神经特征提取层提取的特征向量。每个码字由向量vk表示∈ RD.传统上,这些码字要么使用k-means算法选择[18],要么从提取的特征向量集中直接采样[3]。

10
可人4 在职认证  发表于 2022-6-11 11:32:22
然而,当转炉模型与深度神经网络相结合时,这些方法无法使用,因为输入特征分布不是平稳的。相反,它在不断变化,要求在每个培训步骤后更新代码本。为此,码字被视为网络可训练参数的一部分,并使用常规反向传播算法直接学习(稍后将演示)。然而,上述过程(聚类或随机抽样)仍可用于初始化码字[30]。假设每个变换后的特征向量都是由(图像规格)控制的未知分布独立且相同地生成的,向量si=(si1,si2,…,siNK),则可以使用核密度估计来估计观察给定第i个时间序列的变换后特征向量x(t)ij的概率【34,20】:p(x(t)ij | xi)=NKXk=1sikK(x(t)ij,vk),(1)其中K(·)是一个核,Sik是控制密度估计的时间序列特定参数。可以使用最大似然估计量来估计参数向量:si=arg maxsNiXj=1logNKXk=1sikK(x(t)ij,vk)!。(2) 如[3]所示,可以很容易地推导出,这些参数可以有效地估计为:sik=NiNiXj=1uijk,(3)其中uijk=K(x(t)ij,vk)PNKl=1K(x(t)ij,vl),(4)产生具有软分配的众所周知的转炉。因此,向量SIS是一个描述第i个时间序列行为的直方图,除了用于估计每个时间序列的特征向量分布外,还可用于后续分类任务。此外,如我们之前的工作【30】所示,(4)可以直接实现为非正则化RBF层,而(3)可以实现为递归累积层。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 21:21