楼主: 可人4
1650 35

[量化金融] 限价订单数据的中间价预测基准数据集 [推广有奖]

  • 0关注
  • 2粉丝

会员

学术权威

76%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
49.0443
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24465 点
帖子
4070
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
可人4 在职认证  发表于 2022-5-31 12:01:30 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Benchmark Dataset for Mid-Price Forecasting of Limit Order Book Data
  with Machine Learning Methods》
---
作者:
Adamantios Ntakaris, Martin Magris, Juho Kanniainen, Moncef Gabbouj,
  Alexandros Iosifidis
---
最新提交年份:
2020
---
英文摘要:
  Managing the prediction of metrics in high-frequency financial markets is a challenging task. An efficient way is by monitoring the dynamics of a limit order book to identify the information edge. This paper describes the first publicly available benchmark dataset of high-frequency limit order markets for mid-price prediction. We extracted normalized data representations of time series data for five stocks from the NASDAQ Nordic stock market for a time period of ten consecutive days, leading to a dataset of ~4,000,000 time series samples in total. A day-based anchored cross-validation experimental protocol is also provided that can be used as a benchmark for comparing the performance of state-of-the-art methodologies. Performance of baseline approaches are also provided to facilitate experimental comparisons. We expect that such a large-scale dataset can serve as a testbed for devising novel solutions of expert systems for high-frequency limit order book data analysis.
---
中文摘要:
管理高频金融市场中的指标预测是一项具有挑战性的任务。一种有效的方法是通过监控限额订单簿的动态来识别信息边缘。本文描述了第一个公开的用于中期价格预测的高频限价订单市场基准数据集。我们从NASDAQ Nordic股票市场连续十天提取了五只股票的时间序列数据的标准化数据表示,得到了总计约4000000个时间序列样本的数据集。还提供了一个基于日的锚定交叉验证实验协议,可作为比较最先进方法性能的基准。还提供了基线方法的性能,以便于进行实验比较。我们期望这样一个大规模的数据集可以作为设计高频限购簿数据分析专家系统新解决方案的测试平台。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Computational Engineering, Finance, and Science        计算工程、金融和科学
分类描述:Covers applications of computer science to the mathematical modeling of complex systems in the fields of science, engineering, and finance. Papers here are interdisciplinary and applications-oriented, focusing on techniques and tools that enable challenging computational simulations to be performed, for which the use of supercomputers or distributed computing platforms is often required. Includes material in ACM Subject Classes J.2, J.3, and J.4 (economics).
涵盖了计算机科学在科学、工程和金融领域复杂系统的数学建模中的应用。这里的论文是跨学科和面向应用的,集中在技术和工具,使挑战性的计算模拟能够执行,其中往往需要使用超级计算机或分布式计算平台。包括ACM学科课程J.2、J.3和J.4(经济学)中的材料。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Trading and Market Microstructure        交易与市场微观结构
分类描述:Market microstructure, liquidity, exchange and auction design, automated trading, agent-based modeling and market-making
市场微观结构,流动性,交易和拍卖设计,自动化交易,基于代理的建模和做市
--

---
PDF下载:
--> Benchmark_Dataset_for_Mid-Price_Forecasting_of_Limit_Order_Book_Data_with_Machin.pdf (1.04 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据集 中间价 Applications Experimental Quantitative

沙发
mingdashike22 在职认证  发表于 2022-5-31 12:01:36
使用机器学习方法对LimitOrder Book数据进行中期价格预测的基准数据集Damantios Ntakarisa,*, Martin Magrisb、Juho Kanniaineb、MoncefGabbouja、Alexandros Iosi信号处理分析员、坦佩雷理工大学信号处理分析员、奥胡斯大学工程、电气和计算机工程系坦佩雷、芬兰布拉工业和信息管理实验室、坦佩雷理工大学信号处理分析员,Ingelehmans Gade 10,Aurhus,DenmarkAbstracts管理高频金融市场中的指标预测是一项艰巨的任务。一种有效的方法是监控limitorder book的动态,以识别信息边缘。本文描述了高频限价订单市场的首次公开基准数据集,用于价格预测。我们从NASDAQ Nordic股票市场连续十天提取了五只股票的timeseries数据的标准化数据表示,得出了以下数据集:≈总计4000000个时间序列示例。还提供了一个基于日的锚定交叉验证实验协议,该协议可作为比较最新方法性能的基准。还提供了基线方法的性能,以便于实验比较。我们期望这样一个大规模的数据集可以作为设计高频限购簿数据分析专家系统新解决方案的测试平台。关键词:高频交易、限价指令簿、中间价、机器学习、岭回归、单隐前馈神经网络1。当全球大多数交易所采用EDIT时,自动化交易成为现实。这种环境非常适合高频交易者。

藤椅
大多数88 在职认证  发表于 2022-5-31 12:01:38
高频交易(HFT)和集中匹配引擎(称为限额订单(LOB))是生成大数据Seddon&Currie(2017)的主要驱动力。在本文中,我们描述了一个新的订单数据集,该数据集由五只股票连续十个交易日的大约400万个事件组成。*相应的authorE邮件地址:adamantios。ntakaris@tuni.fi(Adamantios Ntakaris)预印本于2020年3月12日提交给《预测杂志》。数据来源于纳斯达克OMX Nordicand提供的瘙痒提要,由按时间顺序排列的消息序列组成,这些消息跟踪并记录特定市场中发生的所有事件。它提供了十个交易日的完整市场历史记录。此外,我们制定了一个实验方案,以评估研究方法在中期价格预测中的表现。数据集(如本文所示)面临着挑战,包括选择适当的数据转换、规范化、描述和分类。这种类型的海量数据集需要对可用信息有很好的理解,这些信息可以提取出来进行进一步处理。正如Kercheval&Zhang(2015)最近提出的那样,我们遵循信息边缘。作者详细描述了可用于中等价格变动预测指标的代表性。根据这种数据表示,他们采用基于支持向量机(SVM)的非线性分类,以预测该指标的变化。这种监督学习模型利用类标签进行短期和长期预测。然而,他们基于4000个样本的非常小的数据集(与可用于此类应用程序的数据大小相比)来训练他们的模型。

板凳
可人4 在职认证  发表于 2022-5-31 12:01:42
这是由于许多基于非线性核的分类模型的局限性,这些模型与训练数据大小的时间和空间复杂性有关。另一方面,Sirignano(2016)使用大量数据进行基于前馈网络的非线性分类。作者利用数据的局部空间结构,根据LOB的当前状态,对LOB状态的联合分布进行建模。尽管公共可用数据集对于HFT领域的AdvancengResearch非常重要,但没有用于方法评估目的的详细公共可用基准数据集。在本文中,我们描述了基于LOB的HFT的首次公开可用数据集,该数据集的收集旨在促进该领域的未来研究。基于Kercheval&Zhang(2015),我们为五个分类问题提供了大约400000个交易事件和注释的时间序列表示。还提供了两种广泛使用的方法,即线性和非线性回归模型的基线结果。通过这种方式,我们向专家系统社区(expert systemscommunity)介绍了这个新问题,并为促进未来的研究提供了一个测试平台。我们希望,吸引专家系统的兴趣将导致在所提供的数据集中实现的性能的快速提高,从而为这一重要问题提供更好的最新解决方案。本文中描述的数据集对金融专家系统非常有用。MID价格是最佳出价和最佳要价的平均值。标签从专家提供的注释中提取,代表中间价的方向。定义了三种不同的状态,即向上、向下和平稳运动。作者所说的局部变动是指未来价格的有条件变动(例如。

报纸
何人来此 在职认证  发表于 2022-5-31 12:01:46
最佳询价价格变动)取决于当地的当前LOB状态。数据集可从以下位置下载:http://urn.fi/urn:nbn:fi:csckata20170601153214969115有两种方式。首先,它可以用来确定市场稳定的环境,这对于流动性提供者(做市商)进行利差非常重要。因此,这样一个智能系统作为一个可以增加流动性供应的框架是有价值的。其次,数据分析可用于投机性交易者的模型选择,投机性交易者根据对市场走势的预测进行交易。在未来的研究中,本文可用于识别订单簿欺骗,即市场受到限价订单操纵的情况。在这种情况下,欺骗者可能会通过限制在订单完成之前取消的订单来将市场推向特定方向。因此,本研究不仅对做市商和交易者有意义,而且对监管者和监管者也有意义。因此,目前的工作有以下贡献:1)据我们所知,这是第一个公开的LOB-ITCH数据集,用于预测中等价格变动的机器学习实验。2) 我们提供了基于岭回归的基线方法和基于k均值算法的RBF神经网络的新实现。3) 本文为做市商、交易员和监管机构提供了关于预测中间价变动的信息。本文没有提出任何交易策略,仅依赖于纯机器学习指标预测。

地板
何人来此 在职认证  发表于 2022-5-31 12:01:50
总的来说,这项工作是对高频交易和机器学习应用带来的挑战的一次实证探索。纳斯达克赫尔辛基证券交易所(Nasdanq Helsinki Stock Exchange)的数据提供了重要的收益。在美国,给定资产的限额指令分布在多个交易所之间,导致流动性分散。这种分散性给实证研究带来了一个问题,因为正如Gould等人(2013)所指出的,“不同交易平台的匹配规则和交易成本之间的差异使相同集合的不同限额订单簿之间的比较变得复杂。”从分散程度较低的纳斯达克北欧市场获得的数据中不存在这些与分散相关的问题。此外,赫尔辛基交易所是一个纯粹的限价指令市场,做市商的作用有限。论文的其余部分组织如下。我们在第2节中对该领域进行了全面的文献回顾。第3节提供了数据集和实验说明。第4节提供了新数据集以及相关数据源的定量和定性比较。在第5节中,我们描述了基线的工程设计。第6节给出了实证结果,第7节得出结论。HFT和LOB的机器学习HFT和LOB空间的复杂性适合跨学科研究。在本节中,我们将全面回顾最近开发机器学习方法的方法。回归模型、神经网络和其他几种方法已经被提出来推断股票市场。现有文献的范围从度量预测到最佳交易策略识别。研究界试图从不同角度应对预测和数据推断的挑战。

7
可人4 在职认证  发表于 2022-5-31 12:01:53
虽然中间价格预测可以被视为一个传统的时间序列预测问题,但有几个挑战证明HFT是一个独特的问题。2.1。回归分析回归模型已广泛用于HFT和LOB预测。Zheng等人(2012年)利用logistic回归预测贸易间价格上涨。Alvim等人(2010年)使用支持向量回归(SVR)和偏最小二乘(PLS)对十只Bovespa股票的交易量进行预测。Pai&Lin(2005)使用混合模型预测股票价格。他们将自动回归综合移动平均(ARIMA)模型和SVM分类器相结合,以建模回归估计模型中类结构的非线性。Liu&Park(2015)开发了一个多元线性模型来解释短期股价变动,其中买卖价差用于分类目的。Detollenaere&D\'hondt(2017)对变量选择应用了自适应最小绝对收缩和选择算子(LASSO),这最好地解释了拆分订单的交易成本。他们采用调整后的序贯法对事前交易成本进行分组。Cenesizogluet al.(2014)研究了类似的问题。他们认为,限价订单的状态可以为未来价格的方向提供信息,并试图通过使用自回归模型来证明其位置。Panayi等人(2016年)对位置、形状和规模(GAMLSS)模型使用广义线性模型(GLM)和广义预测模型,以将衡量流动性补充所需时间长度的阈值超越持续时间(TED)延迟至LOB状态。

8
何人来此 在职认证  发表于 2022-5-31 12:01:56
Yu(ober)试图从订单信息中提取信息,并基于有序概率模型提交订单。作者指出,在上海股市的案例中,LOB的信息受到交易者策略的影响,对买卖双方有不同的影响。Amaya等人(2015年)使用PanelRegression分析LOB中的订单失衡和流动性成本,以确定市场的弹性。他们的研究结果表明,这种订单失衡会导致长达十分钟的流动性问题。Malik&Lon Ng(2014)分析了LOB的非对称日内模式。他们在名义成交量加权平均价格(NVWAP)曲线上应用回归和功率变换,以得出市场双方对市场条件的行为不对称的结论。同样,Ranaldo(2004)研究了LOB中交易活动与订单流量动态之间的关系,自适应权重用于惩罚lpenalty术语中的不同系数。该方法是当因变量为离散变量时线性回归模型的推广。面板回归模型单独提供有关数据特征的信息,但也会随着时间的推移跨越两个个体。一个行业的市场状况对与其相关的卖方和买方都有影响。要考虑的因素包括该行业竞争对手的数量。例如,如果有盈余,新公司可能会发现很难进入市场并经营业务。其中,实证调查基于probit模型。Cao等人(2009年)使用5阶自回归(AR)模型(AR(5)框架)研究订单簿不同层次的深度。他们发现,高于最佳出价和最佳要价的水平提供了有关资产真实价值的适度信息。

9
mingdashike22 在职认证  发表于 2022-5-31 12:01:59
最后,Creamer(2012)指出,LogitBoostalgorithm是选择正确的技术指标组合的理想选择。2.2。神经网络shft主要是一种倒卖策略,根据该策略,数据的混沌性质为神经网络的应用创建了合适的框架。Levendovszky和Kia(2012)提出了一种多层前馈神经网络,用于预测欧元/美元对的价格,并使用反向传播算法进行训练。Sirignano(2016)提出了一种训练深层神经网络的新方法,该方法试图模拟买卖深度的联合分布,其中重点是LOB水平的空间性质。Bogoev&Karam(2016)建议使用单隐层前馈神经网络(SLFN)检测报价和动量点火。Dixon(2016)使用递归神经网络(RNN)对基于超高频数据的T-Bond和ES未来的中期价格进行预测。Rehman等人(2014年)应用递归笛卡尔遗传编程进化人工神经网络(RCGPANN)预测五种货币兑澳元汇率。Galeshchuk(2016)认为,具有三个隐藏层的多层感知器(MLP)架构适用于汇率预测。Majhi等人(2009年)使用功能链接人工神经网络(FLANN)预测道琼斯工业平均指数和标准普尔500指数的价格变动。Sharang&Rao(2015)利用Deep Faith Network设计中频投资组合交易策略。Hallgren&Koski(2016)使用连续时间贝叶斯网络(CTBNs)进行因果关系检测。他们通过使用Skellam过程,在逐笔高频外汇(FX)数据(欧元/美元)上应用他们的模型。Sandoval&Hern'andez(2015)创建了一个预测表技术指标主要用于短期价格变动预测。

10
mingdashike22 在职认证  发表于 2022-5-31 12:02:02
它们是基于历史数据的公式。倒卖是一种交易策略,根据这种策略,交易员试图对股票进行小幅变动。这种类型的神经网络的空间性质及其梯度可以在更少的网格点上进行评估。这使得模型的计算成本更低。此外,建议的体系结构可以对Rdspace中的整个分布进行建模。国债是联邦政府发行的长期固定利率债务证券。E-mini标准普尔500指数(ES期货)是电子交易期货合约,其价值仅为标准普尔期货的1/4。道琼斯工业平均指数(DJIA)是美国30家最大的上市公司的价格加权平均值。标准普尔500指数是通过跟踪美国股市500只顶级股票中的一些来提供整体市场摘要的指数。骨架过程定义为S(t)=N(1)(t)- N(2(t),t>0,其中N(1)(t)和N(2)(t)是两个独立的齐次泊松过程。通过结合层次隐马尔可夫模型(HHMM)的交易策略,其中他们考虑基于小波的LOB信息过滤。在他们的工作中,他们还考虑使用两层前馈神经网络对即将到来的状态进行分类。然而,他们报告了神经网络在输入数据量方面的局限性。2.3。最大利润和强化学习Palguna&Pollak(2016)对LOB衍生的特征使用非参数方法,这些特征被纳入订单执行策略,用于中期价格预测。同样,Kercheval&Zhang(2015)采用多类支持向量机进行中间价和价差交叉预测。Han et al.(2015)的研究基于Kercheval&Zhang(2015),采用多类SVM formid价格变动预测。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-1 23:30