楼主: mingdashike22
839 13

[量化金融] 金融时间序列的数据驱动神经结构学习 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
74.0016
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24862 点
帖子
4109
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
mingdashike22 在职认证  发表于 2022-6-14 07:39:58 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Data-driven Neural Architecture Learning For Financial Time-series
  Forecasting》
---
作者:
Dat Thanh Tran, Juho Kanniainen, Moncef Gabbouj, Alexandros Iosifidis
---
最新提交年份:
2019
---
英文摘要:
  Forecasting based on financial time-series is a challenging task since most real-world data exhibits nonstationary property and nonlinear dependencies. In addition, different data modalities often embed different nonlinear relationships which are difficult to capture by human-designed models. To tackle the supervised learning task in financial time-series prediction, we propose the application of a recently formulated algorithm that adaptively learns a mapping function, realized by a heterogeneous neural architecture composing of Generalized Operational Perceptron, given a set of labeled data. With a modified objective function, the proposed algorithm can accommodate the frequently observed imbalanced data distribution problem. Experiments on a large-scale Limit Order Book dataset demonstrate that the proposed algorithm outperforms related algorithms, including tensor-based methods which have access to a broader set of input information.
---
中文摘要:
基于金融时间序列的预测是一项具有挑战性的任务,因为大多数真实数据都具有非平稳性和非线性依赖性。此外,不同的数据模式往往嵌入不同的非线性关系,这些关系很难由人工设计的模型捕捉。为了解决金融时间序列预测中的有监督学习任务,我们提出了一种新的算法,该算法在给定一组标记数据的情况下,通过由广义操作感知器组成的异构神经结构来自适应学习映射函数。通过修改目标函数,该算法可以适应频繁观测到的不平衡数据分布问题。在大规模限价订单数据集上的实验表明,该算法优于相关算法,包括基于张量的方法,这些方法可以访问更广泛的输入信息集。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Computer Science        计算机科学
二级分类:Computational Engineering, Finance, and Science        计算工程、金融和科学
分类描述:Covers applications of computer science to the mathematical modeling of complex systems in the fields of science, engineering, and finance. Papers here are interdisciplinary and applications-oriented, focusing on techniques and tools that enable challenging computational simulations to be performed, for which the use of supercomputers or distributed computing platforms is often required. Includes material in ACM Subject Classes J.2, J.3, and J.4 (economics).
涵盖了计算机科学在科学、工程和金融领域复杂系统的数学建模中的应用。这里的论文是跨学科和面向应用的,集中在技术和工具,使挑战性的计算模拟能够执行,其中往往需要使用超级计算机或分布式计算平台。包括ACM学科课程J.2、J.3和J.4(经济学)中的材料。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
--> Data-driven_Neural_Architecture_Learning_For_Financial_Time-series_Forecasting.pdf (170.15 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:金融时间序列 时间序列 Applications Architecture relationship

沙发
mingdashike22 在职认证  发表于 2022-6-14 07:40:03
用于金融时间序列预测的数据驱动神经架构学习Dat Thanh Tran1、Juho Kanniaine1、Moncef Gabbouj1和Alexandros Iosifidis2芬兰坦佩雷科技大学信号处理实验室2丹麦奥胡斯大学ECE工程系{Dat.tranthanh、Juho.kanniainen、Moncef.gabbouj}@tut。菲,亚历山德罗斯。iosifidis@eng.au.dk摘要基于金融时间序列的预测是一项具有挑战性的任务,因为大多数真实数据都具有非平稳性和非线性依赖性。此外,不同的数据模式往往嵌入不同的非线性关系,这些关系很难由人工设计的模型捕捉。为了解决金融时间序列预测中的有监督学习任务,我们提出了一种新的算法,该算法在给定一组标记数据的情况下,通过由广义操作感知器组成的异构神经结构来自适应学习映射函数。通过修改目标函数,该算法可以适应频繁观测到的不平衡数据分布问题。在大规模限价订单数据集上的实验表明,该算法优于相关算法,包括基于张量的方法,这些方法可以访问更广泛的输入信息集。神经结构学习,广义运算感知器,极限订单预测1。市场的不稳定、动态性和海量数据的可用性为分析师提供了机遇和挑战。这一问题在高频交易(HFT)中更具挑战性,高频交易通常涉及快速而复杂的数据移动。

藤椅
nandehutu2022 在职认证  发表于 2022-6-14 07:40:06
过去已经提出了几种数学模型来模拟金融市场的某些特性,并预测资产价格、股票趋势等。传统的数学模型对生成数据的基本过程进行了许多假设,这在实际情况中通常是不现实的。随着计算硬件的进步和大量数据的聚集,最近提出了越来越复杂的模型,这些模型施加的假设越来越少,并利用了现代计算能力,例如,[11、13、14]。如今,从业者正在从传统的自回归模型,如自回归综合移动平均(ARIMA)[10]转向回归树集合[18]或人工神经网络[11、13、14]。事实上,统计机器已被证明在不同的情况下优于ARIMA模型[5]。虽然与传统模型相比,基于神经网络的解决方案可以覆盖更丰富的变换集,并允许低成本的推理,但网络设计通常基于启发式,因此实际上对不同的问题施加了固定的函数形式。另一方面,集成方法(如Random Forest[7])通过聚合基于当前问题发现的弱分类器集合,没有此类限制。然而,分类器集成在推理过程中需要巨大的操作成本。在财务预测中,来自不同市场或股票的不同数据源往往具有不同的非线性关系,因此需要不同的转换。事实上,许多应用领域都是如此。

板凳
mingdashike22 在职认证  发表于 2022-6-14 07:40:09
为了在利用基于神经网络的解决方案的同时解决上述问题,已经提出了一些在其他应用领域自动学习网络拓扑的工作[1、3、12、19、20]。基于类似的动机,在这项工作中,我们采用了最近提出的异构多层广义操作感知器(HeMLGOP)算法[19],以逐步学习具有潜在目标不平衡问题的给定财务预测问题的异构神经架构。自适应修改了不同目标类产生的均方误差(MSE),以防止HeMLGOP学习偏向大多数类的网络架构。事实上,解决数据分布不平衡问题之前已经证明可以提高财务预测系统的性能【17】。正如名称所示,HeMLGOP使用广义操作感知器(GOP)作为神经元模型,该模型旨在封装广泛的非线性变换,并显示出超过传统McCulloch-Pitts模型的学习能力[6]。本文的剩余部分组织如下:在第2节中,我们将回顾广义操作感知器模型和其他相关的渐进式神经结构学习算法。在第3节中,我们将介绍改进的HeMLGOP算法,然后是第4节中的实验。我们在第5节结束我们的工作。2、相关工作广义操作感知器(GOP)是文献[6]中提出的一种神经元模型。GOP的主要思想是通过在三种不同的操作中表达神经元诱导的转化来更好地模拟哺乳动物中观察到的生物神经元:节点操作、池操作和激活操作。

报纸
可人4 在职认证  发表于 2022-6-14 07:40:12
允许 是输入(     ),  和,    和  是GOP的节点、池和激活操作员,按顺序执行以下操作:                                        (1)                                   (2)                                                   (3) 在哪里  和  表示可调节的突触重量和偏差项。简言之,节点操作通过使用突触权重来修改传入信号。合并操作总结了修改后的信号,还结合了偏差项,激活操作执行阈值步骤。每个GOP从预定义的一组操作符中选择其节点、池和激活操作符,即。,        . 在[6]中可以找到一组运算符的示例。在本文中,术语操作符集是指节点操作符、池操作符和激活操作符的特定组合。通过基于给定数据学习算子集分配及其权重,使用GOPs的算法可以生成特定于问题的体系结构。GOP的作者提出了一种称为渐进式操作感知器(POP)的算法,该算法对于大规模数据集来说是计算密集型的。对于感兴趣的读者,有关POP的详细信息,请参见[6]。已经进行了类似的尝试,以学习基于传统感知器或径向基函数的完全连接的前馈网络,如堆叠极限学习机(S-ELM)[15]、广义学习系统(BLS)[3]或最近的渐进式学习系统(PLS)[1]。我们的算法与上述算法的相似之处在于利用了一个众所周知的随机化过程[2]。

地板
大多数88 在职认证  发表于 2022-6-14 07:40:15
然而,与S-ELM、BLS或PLN不同,HeMLGOP算法利用GOP从更丰富的函数集构建神经架构。3、异构多层广义操作感知器为了定义特定于问题的架构,HeMLGOP采用渐进式学习范式,通过在每一步添加新的GOP块来逐步扩展网络拓扑。该算法在每一步都搜索合适的算子集分配,允许异构性,即一个隐藏层可以有具有不同算子集的GOP。给定预定义的块大小,HeMLGOP按以下方式顺序添加新块:如果上一步中未终止最后一个隐藏层中的前进,则将新块添加到最后一个隐藏层,并将第二个最后一个隐藏层的输出作为输入。否则,新块将形成一个新的隐藏层,将最后一个隐藏层的输出作为输入。当网络性能饱和时,隐藏层中的增量停止。这是通过将性能改善率与给定阈值进行比较来量化的. 特别地,当前隐藏层中的进程在以下情况下终止                                           (4) 在哪里  分别是当前步骤和上一步骤的损耗值。在新块完全学习后,即选择合适的操作符集并优化其权重后,检查(4)中的准则。当当前隐藏层完全增长时,将评估其是否包含在最终拓扑中。

7
何人来此 在职认证  发表于 2022-6-14 07:40:18
其思想是,经过一些步骤后,网络的性能达到饱和,我们希望停止渐进式学习过程,继续通过反向传播微调网络中的所有权重,同时保持所有操作符集分配固定。HeMLGOP在以下情况下终止渐进式学习例程:                                          (5) 在哪里 和 表示有无当前隐藏层时获得的损耗值。给定阈值 在(4)和(5)中可以用不同的值来调整网络的深度或宽度。也就是说  是指所学的网络体系结构越宽或越深。应该注意的是,只有在满足(4)之后,即在完全学习当前隐藏层之后,才能评估(5)中的标准。新块的优化包括两个主要步骤:搜索合适的算子集分配和固定算子集后通过BP更新权重。优化新块后,其操作符集和权重将固定。因此,在优化新块的过程中,所有先前块的权重和操作符集都是固定的。HeMLGOP约束块内的所有GOP共享相同的运算符集分配。此外,输出层是一个线性层,它将最后一个隐藏层的输出作为输入。在每个步骤中,将结合新块重新计算整个输出层。为了选择最佳的操作符集,需要评估节点操作符、池操作符和激活操作符的所有组合。

8
kedemingshi 在职认证  发表于 2022-6-14 07:40:21
HeMLGOP通过随机方法进行评估:对于分配给新块的每个算子集,将从均匀分布中提取的随机权重分配给新块,并通过优化重新加权的最小二乘问题获得输出层权重。为了平衡不同目标类别的贡献,通过系数缩放训练样本的均方误差项,  这与样本所属类别的受欢迎程度成反比。具体而言,表示   和   最后一个隐藏层输出和目标输出,输出层权重  根据以下公式计算:                        (6) 在哪里  是控制正则化量的超参数, 是单位矩阵。 是大小的对角矩阵 使用-第个对角线元素为. 应该注意的是 (6)成为标准最小二乘解。在如上所述评估每个操作符集之后,将具有最高性能的操作符集分配给新块。对于某些反向传播时代,新的块权重和输出层权重将进一步更新。虽然HeMLGOP假设可以通过随机过程找到新块的功能形式,即算子集,但权重微调步骤对于在新块中充分利用GOP是必要的,从而避免“弱”神经元的冗余。此外,在网络进程终止后,通过反向传播进一步微调所有权重和偏差。4、在一个大型限价指令簿(LOB)数据集上进行了实验,对所提出的算法和其他相关算法进行了评价。

9
kedemingshi 在职认证  发表于 2022-6-14 07:40:24
下一小节描述了预测中间价变动的问题,然后描述了超参数设置,最后是实验结果和讨论。4.1 FI-2010数据集限额订单是一种以指定价格购买或出售一定数量证券的订单。在限价订单中,必须指定类型(买入/卖出)、价格和相应的数量。买入(买入)和卖出(卖出)限额订单构成限额订单簿(LOB)的两面。在每个时间实例中,中间价被定义为最佳出价和最佳要价之间的平均值。该数量是一个虚拟价格,介于最佳买入价和最佳卖出价之间,其变动反映了LOB和市场的动态。因此,预测未来中间价走势的能力在分析市场中起着重要作用。有关LOB的更多信息,请参阅[4]。基于当前的最佳买卖订单,我们评估了所有算法在预测未来中间价变动方面的性能。在纳斯达克北欧提供的10个工作日内,FI-2010包含来自5只不同芬兰股票的400多万份限额订单【8】。该数据库提供了144维特征向量,总结了10个顺序事件的每个块中的信息。每个特征向量都与下一阶段的中间价格变动(递减、平稳、递增)相关联     订购事件。在我们的实验中,  已使用。该数据库还包括每天9次的锚定前交叉验证拆分。在第K次折叠中,前K天用作训练数据,第二天用作测试数据。由于数据集不平衡,因此将F1平均得分用作主要指标。

10
何人来此 在职认证  发表于 2022-6-14 07:40:27
除了F1得分外,我们还报告了准确度、平均准确度和召回得分。4.2超参数我们使用HeMLGOP、S-ELM【15】、BLS【3】和PLN【1】进行了实验。此外,我们还包括之前报告的以下算法的结果:岭回归(RR)、单层前馈网络(SLFN)[8]、线性判别分析(LDA)、多线性判别分析(MDA)、多线性类特异性判别分析(MCSDA)[16]、多线性张量回归(MTR)、加权多线性张量回归(WMTR)[17],特征袋(BoF)和神经特征袋(N-BoF)[9]。我们应该注意的是,HeMLGOP、S-ELM、BLS、PLN、RR、SLFN和LDA在向量输入上运行,仅获取10个最新订单事件信息。相反,其他方法对张量输入进行操作,利用广泛的过去信息(至少100阶事件)进行预测。利用张量表示的方法在结果表中用星号缩写。对于S-ELM、BLS和PLN,所有正则化参数均从集合中选择    .  BLS和PLN中ADMM的迭代次数设置为500。对于BLS和PLN,每层从100个神经元开始,并以50到最多1000个神经元的步长递增。对于S-ELM,隐层和PCA维度分别设置为1000和500。关于HeMLGOP,在我们的实验中使用了与[19]中相同的一组操作符。块大小设置为40,每层的最大块数和最大层数分别为4和8。在此过程中,更新了300个反向传播时期的新块权重,初始学习率为0.01,每100个时期减少0.1。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-29 19:14