楼主: 可人4
1652 35

[量化金融] 限价订单数据的中间价预测基准数据集 [推广有奖]

21
nandehutu2022 在职认证  发表于 2022-5-31 12:02:38
对于-0.00199到0.00199之间的百分比变化,我们使用标签2,对于较小或等于-0.002的百分比变化,我们使用标签3.4。文献中描述的现有数据集在本节中,我们列出了文献中描述的现有HFT数据集,并对我们的数据集进行了定性和定量比较。以下工作主要关注与机器学习方法相关的数据集。高频贸易商可以选择的数据主要有三种来源。第一种选择是使用公开可用的数据(例如:(1)Dukascopy和(2)truefx),数据采集无需事先达成协议。第二种选择是出于学术目的的公开数据,可在(3)Brogaard et al.(2014),(4)Hasbrouck&Saar(2013),(5)De Winne&D\'hondt(2007),Detollenaere&D\'hondt(2017)和Carrion(2013)中找到。最后,第三种也是最常见的选择是通过需要订阅费的平台获取数据,如(6)Kercheval&Zhang(2015)、Li et al.(2016)和(7)Sirignano(2016)中的数据。表5列出了现有数据来源和特征。表5HFT数据集示例数据集公共Avl。单位时间段资产类别/库存数量大小注释1 Dukascopy X ms最新各种≈ 每天20000次活动52 truefx X ms最新15对FX≈ 300000活动/天53纳斯达克AuR ms 2008-09股票/120-54纳斯达克AuR ms 10/07和06/08股票/500≈ 55000个事件/天55纳斯达克5 ms-股票/5 2000个数据点56泛欧交易所AuR-多个产品-57纳斯达克5 ns 01/14-08/15股票/489 50 TB 58我们-纳斯达克X ms 01-14/06/10股票/5 400万个样本XIn特别是,数据集以毫秒分辨率显示,表中数字除外。还提供各种资产类别的访问权限,包括外汇、商品、指数和股票。

22
能者818 在职认证  发表于 2022-5-31 12:02:42
据我们所知,没有基于此类股票数据集的可用文献。另一个免费逐点历史数据来源是truefx。com网站,但该网站仅提供几对货币在毫秒分辨率下的外汇市场数据。数据包含有关时间戳(毫秒分辨率)和买卖价格的信息。每一个。csv文件每天包含大约200000个事件。这类数据用于均值回复跳变微分模型,如Suwanpetai(2016)所示。第二类数据集可根据要求提供(AuR),asseen in Hasbrouck&Saar(2013)。在本文中,作者将NASDAQOMX瘙痒分为两个阶段:2007年10月和2008年6月。在这段时间里,他们每天每隔十分钟运行一次样本,为每个时间段的可用消息设置一个切断机制。统一采样HFT数据的主要缺点是交易者丢失了重要信息。事件随机发生,非活动时间从几毫秒到几分钟或几小时不等。在我们的工作中,我们克服了这一挑战,我们根据事件流量而不是等时间采样来考虑信息。另一个仅用于学术目的的数据示例是Brogaardet al.(2014)。该数据集包含有关时间戳、价格和买卖双方价格的信息,但不包含与日常事件或功能向量相关的其他详细信息。在Hasbrouck&Saar(2013)中,作者详细描述了他们的纳斯达克OMX ITCH数据,这些数据无法直接用于测试和与基线进行比较。他们利用这些数据应用基于度量的低延迟系统策略,以捕获提交、取消和执行之间的联系。

23
大多数88 在职认证  发表于 2022-5-31 12:02:45
De Winne&D\'hondt(2007)和Detollenaere&D\'hondt(2017)的作者使用泛欧交易所的类似数据集构建限额订单簿。他们指定其数据集可根据提供程序的请求使用。更重要的是,数据提供者提供了关于用户的链路构造的详细信息。我们的工作填补了这一空白,因为我们的数据集提供了完整的限额订单簿深度,可供使用并与我们的基线进行比较。最后一类数据集具有传播限制。Kercheval&Zhang(2015)的论文就是一个例子,作者试图利用机器学习(即SVM)预测中间价的变动。他们用非常少的样本(即4000个样本)训练模型。高频交易活动每天可以产生大量的交易事件,就像我们的数据库每天只为一只股票处理100000个事件一样。此外,Kercheval&Zhang(2015)和Sirignano(2016)中的数据集不可公开获取,因此无法与其他方法进行比较。同样,我们还添加了Hasbrouck(2009)、Kalay et al.(2004)和Kalay et al.(2002)等作品,这些作品利用TAQ和特拉维夫证券交易所的数据集(不用于机器学习方法),并且需要订阅。5、基线为了为我们新的具有LOB数据的HFT数据集提供性能基线,我们使用第3.4节中描述的数据表示,使用两个回归模型进行了实验。第5.1节和第5.2节提供了所用模型的详细信息。第6.5.1节提供了基线性能。岭回归(RR)岭回归定义了一种线性映射,用矩阵W表示∈RD×C,最佳映射一组向量xi∈ RD,i=1。

24
kedemingshi 在职认证  发表于 2022-5-31 12:02:48
作者提供了一个阈值,该阈值基于每10分钟采样间隔250个事件。向量集(记为目标向量)ti∈ RC,i=1,N、 通过优化以下准则:W*= arg minWNXi=1kWTxi- tik+λkWkF,(9)或使用矩阵表示法:W*= arg minWkWTX- TkF+λkWkF。(10) 在上面,X=【xi,…,xN】和T=【ti,…,tN】分别是由样本xian和tias列组成的矩阵。在我们的案例中,每个样本XI对应于一个事件,由向量(D=144)表示,如第3.4节所述。对于数据集中的三类分类问题,向量元素∈ RC(在我们的例子中,C=3)取tik=1的值,如果xibelongs为k类,如果tik=-1,否则。式10的解由以下公式得出:W=XXTX+λI-1TT,(11)orW=XXT+λI-1XTT,(12),其中I是适当维度的单位矩阵。这里,我们应该注意,在我们的例子中,如果数据的大小很大,那么W应该使用ingeq计算。12,因为等式11的计算在计算上非常昂贵。计算W后,新(测试)样品x∈ RDis将ONTS对应的表示映射到空间RC中,即o=WTx,并根据其投影的最大值进行分类,即:lx=arg maxkok。(13) 5.2。基于SLFN网络的非线性回归我们还测试了非线性回归模型的性能。由于基于核的回归的应用对于我们的数据规模来说计算过于密集,因此我们使用了基于SLFN(图3)网络的回归模型。该模型的构成如下:对于快速网络训练,我们根据Huang et al.(2012)、Zhang et al.(6月)和Iosi fidis et al.(2017)中提出的算法来训练我们的网络。该算法由两个处理步骤组成。在第一步中,网络的分层权重是随机确定的,Huang et al。

25
kedemingshi 在职认证  发表于 2022-5-31 12:02:51
(2012)或通过对训练数据应用聚类。我们应用K均值聚类来确定K个原型向量,然后将其用作网络的嵌入层权重。已确定网络的隐藏层权重V∈ RD×K,输入数据xi,i=1,N非线性映射到向量hi∈ RK,表示图。3、SLFn由网络隐层输出RK确定的特征空间中的数据表示。我们使用径向基函数,即hi=φRBF(xi),按元素方式计算,如下所示:hik=expkxi公司- vkk2σ, k=1,K、 (14)其中σ是表示RBF神经元扩散的超参数,Vk对应于V的第K列。网络的输出权重W∈ RK×随后通过求解确定的护理:W*= arg minWkWTH- TkF+λkWkF,(15),其中H=[H,…,hN]是由网络的隐层输出为训练数据形成的矩阵,T是由网络的目标向量ti,i=1,N如第5.1节所述。网络的输出权重由以下公式给出:W=HHT+λI-1HTT。(16) 在计算网络参数V和W后,新的(测试)samplex∈ RDI分别映射在Rk和RC空间中相应的表示上,即h=φRBF(x)和o=WTh。它根据最大网络输出进行分类,即:lx=arg maxkok。(17) 6。结果在我们的第一组实验中,我们在不包括拍卖期的数据集上应用了两种监督机器学习方法,如第5.1节和第5.2节所述。拍卖期间的结果也将可用。

26
mingdashike22 在职认证  发表于 2022-5-31 12:02:54
由于这些数据集没有广泛采用的实验协议,我们在三种标准化设置下提供了五种不同标签方案的信息。表6基于未过滤代表性的结果SLABELS RRACURACYRRP RECISIONRRRECALLF 11 0637±0055 0505±0145 0337±0003 0268±00142 0555±0064 0504±0131 0376±0023 0320±00503 0489±0061 0423±0109 0397±0031 0356±00705 0429±0049 0402±0113 0425±0038 0400±009310 0453±0054 0400±0105 0400±0030 0347±0066标签SLF NAccuracySLF NP recisionSLF NRecallSLF NF 11 0636±0055 0299±0075 0335±0002 0262±00152 0536±0069 0387±0132 0345±0009 0260±00353 0473±0074 0334±0080 0357±0005 0270±00215 0381±0038 0342±0058 0370±0020 0327±004310 0401±0039 0284±0102 0356±0020 0290±0070表7基于Z评分的结果规格化标签RRACURACYRRP RecisionRRRECALLRF 11 0480±0040 0418±0021 0435±0029 0410±00222 0498±0052 0444±0025 0443±0031 0440±00313 0463±0045 0438±0027 0437±0033 0433±00345 0439±0042 0436±0028 0433±0028 0427±004110 0429±0046 0429±0028 0429±0043 0416±0044标签SLF NaccuracysSLF NP recisionSLFNRecallSLF NF 11 0643±0056 0512±0037 0366±0019 0327±00462 0556±0066 0550±0029 0378±0011 0327±00303 0512±0069 0497±0024 0424±0047 0389±00825 0473±0036 0468±0024 0464±0028 0459±003110 0477±0048 0453±0056 0432±0025 0410±0040本节中的表格提供了有关对原始数据和三种不同的归一化设置进行的实验。

27
可人4 在职认证  发表于 2022-5-31 12:02:57
我们为我们的基线模型提供这些结果,以便深入了解像我们这样的数据集的预处理步骤,检查预测时间范围的可预测性的强度,并理解建议方法的含义。通过使用正确的分类器,数据规范化可以显著提高度量的性能。

28
kedemingshi 在职认证  发表于 2022-5-31 12:03:00
更具体地说,我们通过基于最小-最大归一化标签的表8结果的性能来衡量模型的可预测性能力RRACURACyrrp recisionRRRECALLF 11 0637±0054 0499±0118 0339±0005 0272±00152 0561±0063 0467±0117 0400±0028 0368±00603 0492±0070 0428±0111 0400±0030 0357±00725 0437±0048 0419±0078 0429±0043 0417±006310 0452±0054 0421±0110 0399±0028 0348±0066标签SLF NAccuracySLF NP recisionSLF NRECALLF NF 11 0640±0055 0488±0104 0348±0007 0291±00222 0558±0065 0469±0066 0399±0023 0367±00503 0499±0063 0447±0068 0410±0032 0370±00635 0453±0038 0441±0041 0444±0030 0432±005010 0450±0048 0432±00700406±0037 0377±0062表9基于十进制精度归一化标签的结果RRACURACyrrp recisionRRRECALLF 11 0638±0054 0518±0132 0341±0007 0277±00182 0551±0066 0473±0118 0372±0018 0315±00453 0490±0069 0432±0113 0386±0023 0330±00595 0435±0051 0406±0115 0430±0039 0405±009510 0451±0052 0417±0108 0399±0029 0349±0067标签SLF NAccuracySLF NP recisionSLF NRecallSLF NF 11 0641±0055 0512±0027 0351±0007 0297±00242 0565±0063 0505±0020 0410±0026 0385±00543 0504±0061 0465±0032 0421±0040 0393±00735 0457±0038 0451±0029 0449±0031 0438±004610 0461±0053 0453±0036 0420±0035 0399±0053准确性、精确性、召回率和F1分数的衡量标准。例如,表6给出了基于原始数据(即无数据解码)的结果,对于线性分类RR和标签5(即预测地平线的第五次中间价事件),我们的F1得分为40%,其中如表7(即Z-scoredata解码方法)、表8(即。

29
nandehutu2022 在职认证  发表于 2022-5-31 12:03:03
最小-最大数据解码方法)和表9(即十进制精度解码方法),我们分别达到43%、42%和40%。这表明,在线性分类器的情况下,建议的解码方法没有任何显著的改进,因为性能范围的可变性约为3%。另一方面,对于相同的预测时间范围(即标签5),我们的非线性分类器(即SLFN)在解码过程中的反应更有效。对于非规范化数据,SLFN的F1分数达到33%,而Z分数、最小-最大和十进制精度方法分别达到46%、43%和43%。因此,归一化将F1成绩提高近10%。标准化和模型选择也会影响预计时间范围内中等价格变动的可预测性。如果我们试图比较F1在不同时间段的表现,就会得出非常有趣的结果。例如,我们可以看到,无论采用何种解码方法,标签5的F1得分总是优于1,这意味着我们的模型在未来的预测会更好。这一结果非常重要,尤其是在未过滤数据和最小最大和小数精度归一化的情况下,当F1分数约为27%时,一步预测问题(标签1),五步预测问题(标签5)为43%。上述实验结果的另一个方面来自线性和非线性分类器的优缺点。更具体地说,与SLFN(即非线性分类器)相比,RR线性分类器在原始数据集和F1的Z分数解码方法方面表现更好。对于最后的解码方法(即最小-最大和十进制精度),情况并非如此,我们的非线性分类器呈现出与RR相似或更好的结果。

30
mingdashike22 在职认证  发表于 2022-5-31 12:03:06
F1性能差异的一个解释是由于这些方法中的每一种都有工程上的原因。RR分类在高维问题中往往非常有效,并且在大多数情况下,这些类型的问题是线性可分的。与非线性分类器相比,RR性能更好的另一个原因是,RR可以通过交叉验证,使用岭参数惩罚偏差,从而控制复杂性。另一方面,非线性分类容易过度拟合,这意味着在某些情况下,它为阶级分离提供了更好的自由度。7、结论本文描述了一个新的基准数据集,该数据集由五只股票连续十个交易日的纳斯达克feed数据组成。订单流量特征利用的数据表示可用。我们根据1、2、3、5和10个预测期的中间价格变动预测,计算了五项分类任务。还提供了两个回归模型的基线性能,以促进该领域的未来研究。尽管数据量很大,但两种方法的平均样本外性能(F1)约为46%。这些非常有希望的结果表明,机器学习可以有效地预测中等价格变动。利用提供的数据可以受益的潜在研究途径包括:a)预测市场的稳定性,这对于流动性提供者(做市商)进行利差非常重要,对于贸易商增加流动性供应(当市场可以预测稳定时)也非常重要;b) 预测市场走势,这对投机性交易者使用的专家系统很重要;c) 订单簿欺骗的识别,即市场被限价订单操纵的情况。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-2 05:53