楼主: 可人4
1651 35

[量化金融] 限价订单数据的中间价预测基准数据集 [推广有奖]

11
大多数88 在职认证  发表于 2022-5-31 12:02:05
更准确地说,他们将多类SVM(探索线性和RBF核)与使用bagging进行方差约简的决策树进行了比较。Kim(2001)使用输入/输出隐马尔可夫模型(IOHMMs)和强化学习(RL)分别识别订单流量分布和做市策略。Yang等人(2015年)应用学徒学习方法,如线性逆强化学习(LIRL)和高斯过程IRL(GPIRL),根据观察到的限制指令识别交易者或算法交易。Chan和Shelton(2001)将RL用于市场制定策略,其中基于蒙特卡罗模拟和状态行动奖励状态行动(SARSA)算法的实验测试了他们政策的有效性。同样,Kearns&Nevmyvaka(2013)在明池和暗池中实施RL以优化交易执行。特别是在暗池的情况下,他们将删失探测算法应用于智能顺序路由(SOR)问题。Yang等人(arch)研究了一种IRL算法,该算法用于将HFT策略与其他算法交易活动分离。他们还将相同的算法应用于识别操纵性HFT策略(即欺骗)。Felker et al.(2014)通过几项变化预测报价价格的变化。他们将特征加权欧氏距离应用于训练簇的质心。他们计算到训练簇质心的这类距离,在训练簇中考虑特征选择,因为他们的模型中包含了一些变化。2.4。HFT和LOBHFT以及LOB研究活动的其他方法也涵盖了诸如买卖订单的最佳提交策略等主题,重点关注资产价值不确定性带来的库存风险,如Avellanda&Stoikov(2008)的工作。

12
可人4 在职认证  发表于 2022-5-31 12:02:08
Chang(2015)使用马尔可夫链模型类的贝叶斯推理对LOB的动态进行建模,并对高频数据进行测试。学徒学习的动机是使用IRL技术学习奖励函数,然后使用该函数来定义马尔可夫决策问题(MDP)。&Chan(2017)提出了一种新的随机模型,该模型基于订单流的独立复合泊松过程。Talebi等人(2014年)试图通过采用多元高斯分类(MGC)结合贝叶斯投票预测外汇市场的趋势。Fletcher等人(2010年)研究了欧元/美元的交易机会,其中价格变动基于多核学习(MKL)。更具体地说,作者利用SimpleMKL和最近的LPBoostMKL方法来训练多类SVM。Christensen和Woodmansey(2013)开发了一种基于高斯核的分类方法,以识别GLOBEX的冰山目。Maglaras et al.(2015)将LOB视为一个多类排队系统,以解决限额和市场订单安排的问题。Mankad等人(2013年)将静态格子聚类技术应用于合成数据,以便对不同类型的交易进行分类。Aramonte等人(2013)表明,高频环境中的信息不对称至关重要。Vella&Ng(2016)通过引入T2模糊集使用高阶模糊系统(即自适应神经模糊推理系统),其目标是减少HFT球体中的微观结构噪声。

13
nandehutu2022 在职认证  发表于 2022-5-31 12:02:11
Abernethy&Kale(2013)基于股市低后悔算法的applymarket-maker策略。Almgren和Lorenz(2006年)通过建模布朗运动和漂移来解释价格动量,漂移的分布是基于贝叶斯推理更新的。Naes&Skjeltorp(2006)表明,订单斜率衡量供应量的弹性,作为与波动性、交易活动和资产分散信念相关的资产价格的函数。3、LOB数据在本节中,我们详细描述了我们收集的数据集,以促进基于LOB的HFT的未来研究。我们首先在第3.1节中详细描述数据。如第3.2.3.1节所述,遵循数据处理步骤提取消息簿和LOB。数据描述从信息流中提取信息,在不依赖第三方数据提供商的情况下,我们对不同行业的股票进行为期十天的超高频日内数据分析。该数据提供了有关隐藏订单交易的信息。一致地,所谓的冰山订单总体积中不可显示的隐藏部分无法从数据中访问。我们的瘙痒饲料数据是特定日期和市场范围的,这意味着我们每天处理一份文件,其中包含所有证券的数据。包括关于(i)订单提交消息、(ii)交易和(iii)取消的信息(图1中的方框A)。对于每个订单,其类型(买入/卖出)、价格、冰山订单是向经纪人提出的有条件的请求,要求其卖出或买入更多数量的股票,但预定数量较少。数量和毫秒级的精确时间戳可用。此外,(iv)管理消息(即交易暂停或基本安全数据),(v)事件控制(即。

14
能者818 在职认证  发表于 2022-5-31 12:02:16
交易日的开始和结束、细分市场的状态)和(vi)净订单不平衡指标也包括在内。纳斯达克瘙痒流量数据  结构化字符串中的信息  有关活动的信息  市场范围和特定日期的文件  这是一个信息流,不便于分析。h5文件  逐日和库存特定文件  按消息类型在表中分组的数据  Order book信息易于访问ResultsReconstructured message ListReconstructured Order book附加功能C++conversionMatlab scriptsMachine learningABCFig。1、数据处理流程下一步是开发和实现C++转换器,以提取与给定安全相关的所有信息。我们对2010年6月1日至2010年6月14日在赫尔辛基交易所纳斯达克OMX北欧交易所交易的五只股票执行相同的流程。这些数据存储在Linux中,大约有23000个活动订单簿,其中绝大多数都是verycluster。表1显示了五只股票的相关信息。所选股票仅在一个交易所(赫尔辛基)交易。通过只选择一家股票市场交易所,交易者可以避免与分散的市场相关的问题。在市场分散的情况下,给定资产的限价订单分布在多个交易所之间,这给经验数据分析O\'Hara&Ye(2011)带来了问题。表1分析中使用的库存ID ISIN代码公司部门IndustryKESBV FI0009000202 Kesko Oyj消费者防御性杂货店Sout1v FI0009002422 Outokumpu Oyj基本材料钢铁Sampo FI0009003305 Sampo Oyj金融服务保险公司FI0009003552 Rautaruukki Oyj基本材料钢铁WRT1v FI0009000727 W–artsil–a Oyj工业多样化产业赫尔辛基证券交易所,由NASDAQ Nordic运营,是一个纯电子限价指令市场。

15
mingdashike22 在职认证  发表于 2022-5-31 12:02:19
瘙痒反馈记录所有事件,包括活跃交易时间以外发生的事件。在赫尔辛基交易所,交易时间从10:00到18:25(当地时间,UTC/GMT+2小时)。然而,在瘙痒饲料中,我们观察到几个小时以外的记录。特别是,我们考虑10:00之前的监管拍卖期,该拍卖期用于设定交易开始前一天(所谓的开盘前期)的开盘价。这是一种结构不同的机制,遵循交易时间内订单簿流量的不同规则。同样,订单动态中的另一个结构性突破是由于18:25至18:30(所谓的后期开放期)之间实施的不同规定。因此,我们只保留10:30至18:00之间发生的事件。有关上述问题的更多信息,请参见Siikanen等人(2017b)和Siikanen等人(2017a)。在这里,预计订单簿将具有可比的动态,不会因其接近市场开盘和收盘时间而产生任何偏差或例外。3.2。限价订单和消息簿在五只股票的10天内处理消息和限价订单簿。更具体地说,这里有两种类型的消息特别相关:(i)“添加订单消息”,对应于订单提交;(ii)“修改订单消息”,对应于通过订单取消和订单执行更新现有订单的状态。流动性差,表现出零星活动,对应的数据少且嘈杂。这一选择的驱动因素是,在涵盖不同行业部门的同时,需要有足够的培训数据(这不包括非流动性股票)。

16
mingdashike22 在职认证  发表于 2022-5-31 12:02:22
这五种选定的股票(见表1)的总输入消息列表和订单数据用于特征提取,约为4GB;RTRKS于2014年11月20日被停牌并从赫尔辛基交易所退市。示例Message和limit Orderbook分别如表2和表3所示。表2消息列表示例Timestamp Id Price Quantity Event Side1275386347944 6505727 126200 400取消Ask1275386347981 6505741 126500 300提交Ask1275386347981 6505741 126500 300取消Ask1275386348070 6511439 126100 17执行投标1275386348070 6511439 126100 17提交投标1275386348101 6511469 126600 300取消AskLOB是一种集中交易方法由全球大多数交易所注册成立。它汇总了股票市场(如北欧股票市场)双方(即买卖双方)的限额指令。LOB根据几个特征匹配每种新的事件类型。事件类型和LOBcharacteristics描述此匹配引擎的当前状态。事件类型可以是执行、订单提交和订单取消。LOB的特征是分辨率参数Gould et al.(2013),即ticksizeπ(即不同订单之间的最小允许价格)和LotsSizeσ(即可交易且定义为{kσ| k=1,2,…}的最小股票数量)。顺序流量和分辨率参数将描述LOB的动态,其当前状态将由四个元素(sbt、qbt、sat、qat)的状态变量确定≥ 0,其中sbt(sbt)是最佳出价(ask)价格,qbt(qat)是时间t的最佳出价(ask)水平的大小。在我们的数据中,时间戳以毫秒为单位表示,基于1970年1月1日的格式,并相对于东欧时间移动了三个小时(在数据中,交易日从7:00到15:25)。

17
可人4 在职认证  发表于 2022-5-31 12:02:25
ITHC饲料价格记录为小数点后4位,在我们的数据中,如果赫尔辛基交易所的货币为欧元,则通过将价格乘以10000来删除小数点。被定义为买卖价格之间可能存在的最小差距的厚度为1美分。类似地,订单数量被限制为大于1的整数。表3订单示例Level 1 Level 2。。。询问出价询问出价时间戳中间价价差价格数量价格数量价格数量价格数量价格数量1275386347944 126200 126300 300 126100 17 126400 4765 126000 2800。。。1275386347981 126200 200 126300 126100 17 126400 4765 126000 2800。。。1275386347981 126200 200 126300 126100 17 126400 4765 126000 2800。。。1275386348070 126050 100 126100 291 126000 2800 126200 300 125900 1120。。。1275386348070 126050 100 126100 291 126000 2800 126200 300 125900 1120。。。1275386348101 126050 100 126100 291 126000 2800 126200 300 125900 1120。。。2010年6月1日来自FI0009002422的样本。2010年6月1日,来自FI0009002422的样本。数据可用性和分布根据NASDAQ OMX协议,规范化特征数据集可供研究社区使用。我们的数据的开放存取版本已经规范化,以防止重建原始纳斯达克数据。3.4。实验协议为了使我们的数据集成为可用于基于LOB信息评估HTF方法的基准,数据附带以下实验协议。我们按照锚定的前向交叉验证格式开发了一个基于日的预测框架。更具体地说,训练集在每次翻倍中增加一天,在n之后停止- 1天(即,在我们的情况下,在9天之后,n=10)。在每次折叠时,测试集对应一天的数据,数据以滚动窗口格式移动。实验设置如图2所示。

18
kedemingshi 在职认证  发表于 2022-5-31 12:02:28
通过计算所有折叠的平均准确度、召回率、准确度和F1分数以及相应的标准差来衡量性能。我们根据这些指标来衡量我们的结果,其定义如下:准确度=T P+T NT P+T N+F P+F N(1)P精度=T PT P+F P(2)召回率=T PT P+F N(3)F 1=2×P精度×再调用率+召回率(4),其中TP和TF分别代表与基本事实相比的中间价格预测标签的真正和真负,其中,FP和fn分别表示假阳性和假阴性。从上述指标中,我们关注F1得分表现。我们关注F1成绩的主要原因是,在像我们这样的不平衡班级中,F1成绩只能在斜分布的一个方向上受到影响。连续而言,准确度不能区分不同类别的正确标签数量(即与中间价格变动方向预测相关),其他三个指标可以将不同类别的正确标签分开,F1是准确度和召回率的调和平均值。我们遵循Li等人(2016)使用的基于事件的流量。这是因为事件(即订单、执行和取消)并不遵循aWe。感谢纳斯达克的Sonja Salminen女士的支持和帮助。图2:。实验装置框架均匀流速。两个连续事件之间的时间间隔可以从毫秒到几分钟不等。基于事件的数据表示避免了与数据流中如此巨大差异相关的问题。因此,我们的每个表示都是一个向量,包含10个连续事件的信息。基于事件的数据描述产生了一个大约有一百万个表示(即394337个表示)的数据集。

19
kedemingshi 在职认证  发表于 2022-5-31 12:02:31
我们使用Kercheval&Zhang(2015)最近提出的144维表示法来表示这些事件,该表示法由三种类型的特征组成:a)包含买卖订单价格和数量值的10级限额订单的原始数据,b)利用过去信息描述LOB状态的特征,c)通过考虑时间来描述原始数据中的信息边缘的特征。时间、股价和成交量的推导是针对短期和长期预测计算的。更具体地说,输入特征u、u和uare:交易、订单、取消、删除、执行可见限额订单和执行隐藏限额订单。表4提供了用于计算这些特征的表达式。所采用功能的一个限制是缺少与订单流量相关的信息(即订单信息的顺序)。然而,如结果第6节所示,基线实现了相对良好的性能,因此我们将引入可以提高性能的额外功能留给未来的研究。我们为每个i数据样本提供三组数据,每个数据都是通过遵循不同的数据规范化策略创建的,即z分数、最小最大值和十进制精度规范化。特别是Z得分是一个归一化过程,通过该过程,我们分别从每个特征的输入数据中减去平均值,然后除以给定样本的标准偏差:x(Zscore)i=xi-NNPj=1xjsNNPj=1(xj-其中“x”表示平均向量,如等式5所示。另一方面,最小-最大缩放比例,如:x(MM)i=xi所述- xminxmax- xmin,(6)是从每个特征中减去最小值并除以该特征样本的最大值和最小值之间的差值的过程。第三种缩放设置是十进制精度方法。

20
nandehutu2022 在职认证  发表于 2022-5-31 12:02:36
此规范化方法基于移动每个FeatureValue的小数点。计算遵循每个特征样本的绝对值:x(DP)i=xik,(7),其中k是给出| xDP |<1的最大值的整数。表4Feature SetsFeature Set Description details基本u={Paski,Vaski,Pbidi,Vbidi}ni=110(=n)-级别LOB数据时间不敏感u={(Paski- Pbidi,(Paski+Pbidi)/2}镍=1蔓延和中间价格={Paskn- Pask,Pbid- Pbidn,| Paski+1- Paski |,| Pbidi+1- Pbidi |}ni+1价格差异U=nnnPi=1帕斯基,nnPi=1比迪,nnPi=1瓦斯基,nnPi=1 Vbidioprice&Volume Meansu=nnPi=1帕斯基- Pbidi),nPi=1(Vaski- Vbidi)累积差异时敏u=ndPaski/dt,Dppidi/dt,dVaski/dt,dVbidi/dtoni=1价格和体积导数u=nλt、 λt、 λt、 λt、 λt、 λTo每种类型的平均强度u=nλt> λT、 1λt> λT、 1λt> λT、 1λt> λT、 1λt> λT、 1λt> λ相对强度比较NU={dλ/dt,dλ/dt,dλ/dt,dλ/dt,dλ/dt,dλ/dt}限制活动加速在定义事件表示后,我们使用五个不同的投影视界作为标签。这些视野中的每一个都描绘了不同的未来预测中间价变动区间(即向上、向下和平稳中间价变动)。更具体地说,我们根据表示数据集接下来的1、2、3、5和10个事件的短期和长期、基于事件的相对变化提取标签。我们的标签描述了中间价格的百分比变化,其计算如下:l(j)i=ki+kPj=i+1mj- mimi,(8)其中MJ是未来的中间价(k=1、2、3、5或10个我们的代表中的下一个事件),Mi是当前的中间价。提取的标签基于0.002的百分比变化阈值。对于等于或大于0.002的百分比变化,我们使用标签1。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-2 01:41