楼主: kedemingshi
2685 18

[量化金融] DeepLOB:用于极限订单簿的深度卷积神经网络 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
89.2735
学术水平
0 点
热心指数
8 点
信用等级
0 点
经验
24665 点
帖子
4127
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
kedemingshi 在职认证  发表于 2022-6-10 10:12:25 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《DeepLOB: Deep Convolutional Neural Networks for Limit Order Books》
---
作者:
Zihao Zhang, Stefan Zohren, Stephen Roberts
---
最新提交年份:
2020
---
英文摘要:
  We develop a large-scale deep learning model to predict price movements from limit order book (LOB) data of cash equities. The architecture utilises convolutional filters to capture the spatial structure of the limit order books as well as LSTM modules to capture longer time dependencies. The proposed network outperforms all existing state-of-the-art algorithms on the benchmark LOB dataset [1]. In a more realistic setting, we test our model by using one year market quotes from the London Stock Exchange and the model delivers a remarkably stable out-of-sample prediction accuracy for a variety of instruments. Importantly, our model translates well to instruments which were not part of the training set, indicating the model\'s ability to extract universal features. In order to better understand these features and to go beyond a \"black box\" model, we perform a sensitivity analysis to understand the rationale behind the model predictions and reveal the components of LOBs that are most relevant. The ability to extract robust features which translate well to other instruments is an important property of our model which has many other applications.
---
中文摘要:
我们开发了一个大规模的深度学习模型,从现金股票的限额订单簿(LOB)数据预测价格变动。该体系结构使用卷积滤波器来捕获限额订单簿的空间结构,并使用LSTM模块来捕获更长的时间依赖关系。所提出的网络在基准LOB数据集上的性能优于所有现有的最先进算法【1】。在更现实的环境中,我们使用伦敦证券交易所的一年市场报价来测试我们的模型,该模型为各种工具提供了非常稳定的样本外预测精度。重要的是,我们的模型可以很好地转换为不属于训练集的工具,这表明该模型具有提取通用特征的能力。为了更好地理解这些特征并超越“黑箱”模型,我们进行了敏感性分析,以了解模型预测背后的基本原理,并揭示最相关的LOB组成部分。提取能够很好地转换到其他工具的鲁棒特征是我们的模型的一个重要特性,该模型具有许多其他应用。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--

---
PDF下载:
--> DeepLOB:_Deep_Convolutional_Neural_Networks_for_Limit_Order_Books.pdf (625.49 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:神经网络 deep Dee 神经网 Applications

沙发
可人4 在职认证  发表于 2022-6-10 10:12:31
LATEX类文件杂志,第XX卷,第XX号,XXX 1深度LOB:深度卷积神经网络对于限价指令书Zihao Zhang、Stefan Zohren和Stephen Roberts Abstract,我们开发了一个大规模深度学习模型,以从现金股票的限价指令书(LOB)数据预测价格变动。该体系结构使用卷积滤波器来捕获限额订单簿的空间结构,并使用LSTM模块来捕获更长的时间依赖关系。在基准LOB数据集上,该网络的性能优于所有现有的最先进的算法【1】。在更现实的环境中,我们使用伦敦证券交易所的一年市场报价来测试我们的模型,该模型为各种工具提供了非常稳定的样本外预测精度。重要的是,我们的模型可以很好地转换为不属于训练集的仪器,这表明该模型具有提取通用特征的能力。为了更好地理解这些特征并超越“黑盒子”模型,我们进行了敏感性分析,以了解模型预测背后的理论,并揭示最相关的LOB组成部分。提取能够很好地转换到其他工具的鲁棒性特征是我们模型的一个重要特性,该模型具有许多其他应用。一、 简介在当今竞争激烈的金融世界中,一半以上的市场使用电子限额订单簿(LOB)[2]记录交易[3]。与传统的报价驱动市场不同,交易员只能以做市商公开制定的价格之一买卖资产,交易员现在可以直接查看交易所限额指令簿中的所有剩余限额指令。

藤椅
nandehutu2022 在职认证  发表于 2022-6-10 10:12:36
由于限价订单根据其提交的价格排列成不同的级别,LOB的时间演变代表了一个多维问题,元素在买卖双方的LOB的多个级别上呈现了众多的价格和订单量/大小。LOB是一个高维的复杂动态环境,导致建模复杂,使传统方法难以应对。由价格序列演变模型主导的数学金融均衡。这导致了一系列具有随机驱动项的类马尔可夫模型,如向量自回归模型(VAR)[4]或自回归综合移动平均模型(ARIMA)[5]。为了避免过多的参数空间,这些模型常常依赖于手工制作的数据特征。然而,考虑到生成的数十亿电子市场报价,作者是牛津大学工程科学系牛津曼定量金融研究所的(电子邮件:zihao@robots.ox.ac.uk).github:https://github.com/zcakhaaLimit订单是指提交后不立即匹配的订单,也称为被动订单。这与即时匹配的订单相反,即所谓的激进订单,如市场订单。LOB只是在给定时间点上所有剩余/未完成限额订单的记录。每天,使用更现代的数据驱动机器学习技术来提取这些特征是很自然的。此外,限价订单数据与其他任何金融时间序列数据一样,都是以非平稳数据著称,且以仓促为主。特别是,由于预期未来价格变动,Lob更深层次的订单往往被下达和取消,因此更容易受到噪音的影响。

板凳
mingdashike22 在职认证  发表于 2022-6-10 10:12:40
其他问题,如拍卖和暗池[6],也增加了额外的困难,给环境带来了前所未有的不可观测性。感兴趣的读者可以参考文献[7],其中回顾了这些问题。在本文中,我们设计了一种新的深度神经网络体系结构,它结合了卷积层和长-短期记忆(LSTM)单元来预测大规模高频LOBdata中的未来股价走势。与之前的研究[8]相比,我们的模型的一个优点是,它能够通过从高噪声数据中提取代表性特征来适应许多股票。为了避免手工制作的功能的限制,我们使用所谓的Inception模块[9]将卷积层和池层包装在一起。Inception模块有助于推断不同时间范围内的本地交互。然后将生成的特征映射传递到LSTM单元,该单元可以捕获动态的时间行为。我们在一个公开的LOB数据集上测试了我们的模型,该数据集被称为FI-2010[1],我们的方法明显优于所有现有的最先进的算法。然而,FI-2010数据集仅由流动性较低的市场连续10天的向下抽样预标准化数据组成。虽然这是一个有价值的基准集,但有争议的是,它不足以充分验证analgorithm的稳健性。为了确保我们模型的推广能力,我们使用伦敦证券交易所(LSE)5只股票的一年期订单数据对其进行了进一步测试。为了尽量减少过度拟合回测数据的问题,我们在转移到样本外测试集之前,仔细优化了单独验证集上的任何超参数。

报纸
大多数88 在职认证  发表于 2022-6-10 10:12:48
我们的模型在三个月的测试期内,对所有股票提供了稳健的样本外预测精度。除了展示用于构成训练集的股票的样本外数据(在时间和数据流意义上)的结果外,我们还将对不属于训练集的样本外股票(在时间和数据流意义上)测试我们的模型。有趣的是,我们在整个测试期间仍然取得了良好的结果。我们认为,这一观察结果表明,所提出的模型不仅能够从订单中提取稳健的特征,而且还表明订单中存在调节股票需求和价格的通用特征。将模型传输到新仪器的能力打开了LATEX类文件的门户,第XX卷,第XX号,XXX 2我们考虑未来工作的可能性数量。为了证明我们的模型的实用性,我们在simpletrading仿真中使用了它。我们专注于流动性充足的股票,因此下滑和市场影响较小。事实上,这些股票通常比流动性较差的股票更难预测。由于我们的交易模拟主要是指模型之间的比较方法,我们假设交易发生在中间价格,并比较费用前的总利润。前一种假设相当于假设交易的一方可能是被动的,而后一种假设是,不同的车型交易量相似,因此将收取类似的费用。我们在这里的重点是使用模拟来衡量模型预测的相对值。

地板
何人来此 在职认证  发表于 2022-6-10 10:12:51
在这些简化条件下,我们的模型提供了显著的正回报,风险相对较小。虽然我们的网络取得了良好的性能,但复杂的“黑箱”系统,如深度神经网络,在对模型预测背后的基本原理缺乏了解的情况下,在金融应用中的应用有限。在这里,我们利用模型不可知石灰法【10】突出订单中高度相关的组件,以便gaina更好地理解我们的预测和模型输入之间的关系。令人欣慰的是,这些符合订单中价格和数量的合理(尽管可能不常见)活动模式。大纲:论文的其余部分如下。第二节介绍了研究背景和相关工作。第三节描述了限额订单数据和数据准备的各个阶段。我们在第Ivan节中介绍了我们的网络架构,并对模型的每个组件进行了说明。在第五部分中,我们将我们的工作与大量的大众方法进行比较。第六节总结了我们的发现,并考虑了紧张局势和未来工作。二、背景和相关工作关于股票市场可预测性的研究在金融文献中有着悠久的历史,例如[11,12]。尽管对市场效率的看法不同,但许多被广泛接受的研究表明,金融市场在一定程度上是可预测的[13、14、15、16]。广义而言,预测金融时间序列的两大类工作是统计参数模型和数据驱动的机器学习方法[17]。传统的统计方法通常认为,所研究的时间序列是由参数过程生成的。然而,人们一致认为,股票回报的表现方式更为复杂,通常是高度非线性的[19,20]。

7
nandehutu2022 在职认证  发表于 2022-6-10 10:12:54
机器学习技术能够捕捉这种任意的非线性关系,而对输入数据的先验知识很少,甚至没有。最近,人们对使用机器学习算法预测限额订单数据的兴趣激增【1、22、23、24、25、26、27、20、28、29】。在许多机器学习技术中,由于金融时间序列数据具有高度的随机性,通常会进行预处理或特征提取。通用特征提取方法已经实现,例如主成分分析(PCA)和当时市场上最佳购买和最佳销售价格的平均值。[24]工作中的线性判别分析(LDA)。然而,这些提取方法是静态的预处理步骤,没有进行优化以最大化观察它们的模型的总体目标。在[25,24]的工作中,特征袋模型(BoF)表示为神经层,并使用反向传播算法对模型进行端到端的训练,从而在FI-2010数据集上获得了明显更好的结果[1]。这些工作表明了adata驱动方法从大量数据中提取代表性特征的重要性。在我们的工作中,我们提倡端到端的训练,并表明深层神经网络本身不仅可以获得更好的结果,而且可以很好地转换到新的工具(不是训练集的一部分),这表明网络能够从原始数据中提取“通用”特征。可以说,现代深度学习的关键贡献之一是在学习模型中增加了特征提取和表示。

8
mingdashike22 在职认证  发表于 2022-6-10 10:12:57
卷积神经网络(CNN)[30]就是一个很好的例子,其中以滤波器组的形式进行的信息提取会自动调整到整个网络旨在优化的效用函数。CNN已成功应用于各种应用领域,例如,目标跟踪[31]、目标检测[32]和分割[33]。然而,只有少数已发表的作品采用CNN来分析金融微观结构数据[34、35、26],现有的CNN体系结构相当简单,缺乏彻底的调查。就像从“AlexNet”[36]转移到“VGGNet”[37]一样,我们表明,与所有现有方法相比,仔细设计网络体系结构可以获得更好的结果。长-短期记忆(LSTM)[38]最初是为了解决当前神经网络的消失梯度问题[39],并在语言建模[40]和序列到序列学习[41]等应用中大量使用。与在金融市场中应用较少的CNN不同,LSTM近年来很受欢迎,[42、28、43、44、45、46、47、20]都使用LSTM分析金融数据。特别是,[20]使用1000只股票的Slimit订单数据来测试一个四层LSMModel。他们的结果显示,随着时间的推移,样本外预测的准确性稳定,这表明了深度学习方法的潜在益处。据我们所知,目前还没有将CNN与LSTM相结合来预测股票价格变动的工作,这是首次将CNN-LSTM模型应用于原始市场数据的广泛研究。特别是,在这种情况下,在推断提取特征的最佳“衰减率”时,初始模型的使用是新颖且至关重要的。三、 数据、归一化和标签化。限价订单簿我们首先介绍限价订单簿(LOB)的一些基本定义。

9
大多数88 在职认证  发表于 2022-6-10 10:13:01
关于市场微观结构的经典参考文献,请参考[48、49],对于LOB的简短回顾,请特别参考[7]。这里我们遵循[7]的约定。LOB有两种类型的订单:bid订单和ask订单。bid(ask)订单是指购买(出售)anJOURNAL OF LATEX CLASS FILES,VOL.XX,NO.XX,XXX 3VolumeVolumePrice/$20.220.2520.2620.2720.2820.2920.3020.2420.2520.2620.2720.2820.2920.3020.31BidAskBidAskPriceAskBidPrice/$20.220.420.920.520.620.720.8价格/$.220.320.920.520.620.720.8时间:t+1BidAsk!“($)(&)L1-BidL2L3L4L1L2L3L4Volume!”($)(&)!\'($)(&+1)!”($)(&+1)L1-BIDL2L3L4L1L2图1。时间t和t+1时的LOB切片。L1代表各自的第一级,L2代表第二级,以此类推。p(1)a(t)是最低要价(最佳要价),p(1)b(t)是t时的最高出价(最佳出价)。资产处于或低于(高于)规定价格。投标订单有价格Pb(t)和尺寸/体积Vb(t),而询价订单有价格Pa(t)和尺寸/体积Va(t)。P(t)和V(t)都是表示资产不同价格水平下价值的向量。图1说明了上述概念。上图显示了时间t时LOB的一个切片。该图中的每个正方形表示标称大小为1的顺序。这是为了简单起见,实际上不同的顺序可以有不同的大小。蓝色条表示投标订单,黄色条表示询价订单。订单根据其提交的价格分为不同的级别,其中L1代表最终级别,以此类推。每个级别包含两个值:价格和数量。在投标方,在本例中,Pb(t)和Vb(t)是4个向量。我们使用p(1)b(t)表示采购订单的最高可用价格(第一投标级别)。同样,p(1)a(t)是可用的最低销售订单(第一个ask级别)。下图显示了t+1时,传入市场订单购买5股股票的行为。

10
mingdashike22 在职认证  发表于 2022-6-10 10:13:05
因此,整个第一和第二个ask级别都是针对该订单执行的,p(1)a(t+1)从t.B时的20.6移到了20.8。输入数据我们在两个数据集上测试了我们的模型:FI-2010数据集【1】和伦敦证券交易所(LSE)的一年期限额订单簿数据。FI-2010数据集【1】是第一个公开的高频限购数据基准数据集,并从纳斯达克北欧股票市场提取了连续10天的五只股票的时间序列数据。许多早期的算法都在这个数据集上进行了测试,我们使用它来与其他算法进行公平的比较。然而,10天的数据量不足以充分测试算法的鲁棒性和泛化能力,因为过度拟合回测数据的问题很严重,我们通常预计信号在几个月内保持一致。为了解决上述问题,我们为劳埃德银行、巴克莱、乐购、英国电信和沃达丰培训并测试了一年期的modelon限额订单数据。这五种工具是伦敦证券交易所上市的流动性最强的股票。一般来说,更难对流动性更强的股票进行模型训练,但同时,这些工具更容易交易,不会对价格产生影响,因此,用于评估业绩的简单阅读模拟更为现实。数据包括上述名称的所有LOB更新。它涵盖2017年1月3日至2017年12月24日的所有交易日,我们将其限制在08:30:00至16:00:00之间的时间间隔内,以便只进行正常的交易活动,不进行拍卖。Lob的每一个州每侧包含10个级别,每个级别包含价格和数量方面的信息。因此,每个时间戳总共有40个特性。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-25 11:26