楼主: mingdashike22
855 20

[量化金融] 使用聚合数据重建订单流 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-5-23 22:12:03
在分析表4中“报价”文件的摘录后,我们将得到以下时间戳价格数量32472。252 27.32 267时间戳边级价格数量32472。086 B 1 27.32 26732472.086 B 2 27.31 50032472.086 B 3 27.29 58532472.086 B 4 27.285 12732472.086 B 5 27.27 50032472.086 B 6 27.2 30032472.086 B 7 27.16 50032472.086 B 8 27.155 20032472.086 B 9 27.15 175032472.086 B 10 27.1 22332472.086 B 2 27.31 71032472.252 B 1 27.31 71032472.252 B 2 27.29 58532472.252 B 3 27.285 12732472.252 B 4 27.27 50032472.252 B 5 27.2 30032472.252 B 6 27.16 50032472.252 B7 27.155 20032472.252 B 8 27.15 175032472.252 B 9 27.1 22332472.252 B 10 27.095 598表4:“交易”和“报价”文件之间的完美匹配。“交易”摘录(toptable)的行与“报价”文件(bottomtable)摘录中的相同时间戳完全匹配。库存LAGA。2010年1月28日,宾夕法尼亚州。订单流量:32472.086限额B 2 27.31 21032472.252取消B 1 27.32 267但在分析“交易”文件后,我们得出结论,时间32472.252的更新不是取消,而是市场订单的结果。因此,我们将订单流量更改为:32472.086 LIMIT B 2 27.31 21032472.252 MARKET B 1 27.32 2673.4一般情况下,交易匹配的基本方法上述完美情况很少出现。在我们的7只股票1天说明性样本中,完美案例出现的频率低于0.001(但应避免泛化此图,因为第4节将显示匹配结果具有强烈的交换性和时间依赖性)。造成这种情况的原因是,用于标记“交易”和“报价”文件时间的时钟不同步。因此,很难将“交易”文件中读取的对应市场订单与“报价”文件中读取的取消订单精确匹配。

12
何人来此 在职认证  发表于 2022-5-23 22:12:06
大多数情况下,交易记录在“交易”文件中,更新发布在“报价”文件中,延迟数毫秒。因此,在交易匹配的第一种方法中,当我们解析“交易”文件并在根据“报价”文件构建的订单流中查找匹配取消时,我们不仅要查看准确的交易时间戳,还要查看-此事务时间戳周围的δ和+δ秒。如果可能有多个匹配,我们会选择一个能够最大限度地减少时间戳差异的匹配。从现在起,此过程将称为“匹配1”。图1绘制了对样本应用匹配1程序后未匹配的交易比例。似乎所有股票的匹配表现都是相似的。正如所料,当δ增加时,匹配性能提高,但出乎意料的是,所有股票的δ都达到了一个平台≈ 150- 200 ms。超过该值,增加δ对性能没有影响,匹配1程序在大约5-在本示例中,交易文件中报告的交易占20%。为了更准确地了解这一现象,我们在图2中绘制了测量时间滞后的经验分布τ=τq-τt其中τ是“交易”文件中交易的时间戳,τq是“报价”文件中匹配修改的时间戳。这一分布提供了主要的积极支持,表明“报价”文件的更新大部分时间是在“交易”文件中的交易报告之后进行的。此外,所有经验密度在150 ms左右下降到0,这表明在“引号”文件中很少匹配超过150 ms的顺序。3.5增强的交易匹配方法之前的匹配过程留下了大量不匹配的交易。

13
何人来此 在职认证  发表于 2022-5-23 22:12:09
我们经常发现,“交易”文件中的连续行只会导致0中的一次更新。0 0.1 0.2 0.3 0.40.0 0.2 0.4 0.6 0.8 1.0匹配1未匹配交易的deltafraction性能●●●●●●●● ●●●●●●●● ● ●●●●●●●●● ●●●●●●●●● ●●●●●●●● ● ●●●●●●●● ● ●●●●●●● ● ● ●航空公司。PAALO公司。PABNPP。巴布伊。帕卡尔。PAEDF。巴拉加。图1:匹配1未匹配的交易比例。2011年1月17日09:05至17:20之间数据库中报告的所有交易均被视为匹配。-0.05 0.00 0.05 0.10 0.15 0.20 0.250 5 10 15 20 25匹配1时间戳差异(引号文件更新延迟)密度的时间戳滞后分布● ● ●●● ●●●●● ●●●●●●●●●●●●●●●●●●●●●● ● ●●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ● ● ●●● ● ● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ● ●●●●● ● ●●●●● ●●●●●●●●●●●●●●●●●●● ●● ● ●●●●● ●●● ●●●●●●● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ● ● ● ● ● ● ● ● ● ●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●航空公司。PAALO公司。PABNPP。巴布伊。帕卡尔。PAEDF。巴拉加。图2:时滞的经验密度τ在“交易”中记录的交易与“报价”文件中的匹配取消之间,采用δ=0.4的“匹配1”程序引号“文件”。对这种现象的常见解释是,交易所为每个等待的限额指令发布一条消息,该指令(部分)与传入的市场指令匹配。在这种情况下,必须以相同的价格汇总连续的“交易”文件行,才能在“报价”文件中找到相应的取消。表5对此进行了说明。

14
可人4 在职认证  发表于 2022-5-23 22:12:12
时间戳价格数量32951的结果。412 27.45 30032951.412 27.45 182时间戳侧面价格数量32951。419 A 1 27.45 48232951.419 A 2 27.455 73032951.419 A 3 27.465 20032951.419 A 4 27.47 20032951.419 A 5 27.475 20032951.419 A 6 27.48 27932951.419 A 7 27.485 181332951.419 A 8 27.495 52932951.419 A 9 27.5 303032951.419 A 10 27.505 20032951.419 A 1 27.455 730表5:两行“交易”文件的汇总(上表)以匹配“报价”文件(下表)的更新。库存LAGA。PA于2010年1月28日对表5中“报价”文件的摘录进行解析,即取消订单(cancel,32951.419,A,1,27.45,482)。在分析“报价”文件后,我们得出结论,事实上,在“交易”文件中记录为两笔交易的市场订单的记录延迟了700万秒。困难在于,没有简单的规则可以使此过程自动化,因为在同一时间戳上的所有市场订单不一定要进行聚合以匹配“报价”文件。为了解决这些困难,我们增强了匹配过程:在解析“交易”文件时,我们将具有相同价格和相同时间戳(目前,请参见下文)的连续行(交易)分组到一个批次中。然后,对于每个构建的批次,我们测试其所有可能的视图到连续行分区的匹配,并将匹配原始“交易”文件中最大行数的匹配作为我们的解决方案。

15
mingdashike22 在职认证  发表于 2022-5-23 22:12:15
例如,在分析“交易”文件时,如果我们在同一时间戳中发现三个交易,如下所示(合成示例,非真实数据):时间戳价格数量36000。000 20.00 10036000.000 20.00 5036000.000 20.00 200然后除了连续匹配这三条线外,我们还将测试匹配2 100.00 0.05 0.10 0.15 0.20未匹配交易的匹配性能●●●●●● ●●●●●●●●●● ● ● ● ●●●●●●●●●● ●●●●●●● ● ●●●●●●●●● ● ●● ●●●●●●● ●● ●●●●●● ● ● ● ● ● ●航空公司。PAALO公司。PABNPP。巴布伊。帕卡尔。PAEDF。巴拉加。图3:匹配2未匹配的交易比例。2011年1月17日09:05至17:20之间数据库中报告的所有交易均被视为匹配。在本例中,δ=0.4。交易安排如下:时间戳价格数量36000。000 20.00 15036000.000 20.00 200时间戳价格数量36000。000 20.00 10036000.000 20.00 250时间戳价格数量36000。000 20.00 350为了说明由于这一增强而带来的性能提高,图3绘制了此匹配2程序未匹配的交易的细分,作为Nb的函数,Nb是单个批次降低的最大规模。当Nb=1(左侧第一点)时,匹配与匹配1程序相同(在绘制的示例中δ=0.4)。正如预期的那样,当NB增加时,匹配情况会得到改善:在我们的样本中,以前不匹配的交易中,现在至少有12%(LAGA.PA)和33%(BNPP.PA)与BNPP的限额订单簿匹配。PA或IRP。PA占总交易量的4%以上。

16
何人来此 在职认证  发表于 2022-5-23 22:12:18
然而,请注意,在此样本上,将批次大小增加到5或6行以上不会对性能产生任何显著影响。在匹配2仍无法匹配的订单中,通过仔细观察数据文件发现了另一个困难:时间不完全相同的市场订单有时必须进行聚合以匹配“报价”文件。表6对此进行了说明。Intimestamp价格数量33095。296 27.51 10033095.296 27.51 20233095.296 27.51 30333095.296 27.51 48633095.296 27.51 33433095.296 27.535 21033095.299 27.535 140时间戳侧面价格数量33046。84 A 1 27.535 3951[…]33085.836 B 1 27.51 226433095.297 B 1 27.51 83933095.31 A 1 27.535 3601表6:具有不同时间戳的“交易”文件行的聚合,以匹配“报价”文件的更新(下表)。库存LAGA。2010年1月28日,宾夕法尼亚州。表6,“交易”文件摘录的第五行必须进行聚合,以匹配订单(33095.297,CANCEL,B,1,27.51,1425),滞后1毫秒。但是,尽管最后两个订单有两个不同的时间戳,间隔为3毫秒,但必须进行聚合以匹配订单(CANCEL、A、A、27.5353350),其中一个订单的延迟为11毫秒,另一个订单的延迟为14毫秒。为了跟踪这些特殊情况,我们将上述匹配2过程分组到相同的批处理行中,这些批处理行的时间戳接近第一次读取的时间戳,但不一定相等。测量单个批次的最大允许时滞的参数将表示为δb。为了说明由于这种增强而导致的性能提高,图4绘制了此匹配3程序未匹配的交易比例作为δb的函数。

17
大多数88 在职认证  发表于 2022-5-23 22:12:20
在该样本中,要聚合的事务似乎有一个非常接近的时间戳,要考虑的典型时间延迟为2-3 ms。对于δbn的较高值,没有观察到匹配改进。匹配3的改进允许匹配3%(也是.PA、BOUY.PA、EDF.PA)到之前不匹配交易(CARR.PA、BNPP.PA)的10%以上,LAGA除外。性能没有改善的PA。然而,这种改进在任何情况下都不到观察到的总交易的1%。0.000 0.005 0.010 0.0150.00 0.05 0.10 0.15匹配3delta\\u B未匹配交易的绩效●●●●●●●●● ●●●●●●●●●● ●●●● ●●●●●●●● ● ● ● ●航空公司。PAALO公司。PABNPP。巴布伊。帕卡尔。PAEDF。巴拉加。图4:匹配3未匹配的交易比例。2011年1月17日09:05至17:20之间数据库中报告的所有交易均被视为匹配。在本例中,δ=0.4,Nb=9。表7总结了上述匹配程序的性能。简而言之,匹配1匹配2匹配3AIRP。PA 83.11%、87.63%、88.75%。PA 88.21%89.78%90.15%BNPP。PA 87.81%91.85%92.67%BOUY。PA 85.07%87.90%88.22%CARR。PA 89.15%92.11%93.03%EDF。PA 90.99%92.14%92.41%LAGA。PA 96.89%97.30%97.30%表7:文本中描述的不同匹配程序匹配的“交易”文件中的交易百分比在这7种股票样本中,我们的详细算法平均允许匹配“交易”文件中报告的大约92%的交易,这比标准匹配1程序平均提高了总交易的3%。这听起来可能不多,但请记住,这一小段1天的样本仅用于说明匹配过程。

18
mingdashike22 在职认证  发表于 2022-5-23 22:12:23
下一节将提供更详细的结果,表明对于某些股票和日期,增强匹配(匹配3)至关重要。3.6不匹配交易的来源其他一些难题可通过进一步改进上述匹配程序来解决,但成本可能很高,但改进幅度不大。对文件的手动观察表明,一些仍然不匹配的订单确实“出界”,其数量或价格在限额订单簿中根本没有观察到。然而,对于许多不匹配的订单,只有很小的数量差异才能阻止匹配:即使价格等于最佳出价,并且我们观察到以最佳出价取消订单,我们也无法准确地将其数量相等,无论信息的聚合程度如何。在这种情况下,无法获得精确匹配。我们只能推测这些交易的来源,平均约有10%的交易不匹配。最明显的解释是,报告的交易是在隐藏流动性的情况下执行的,这是许多交易所允许的,而在巴黎泛欧交易所(Euronext Paris)上采取的是“冰山”订单的形式。订单簿上仅显示冰山订单大小的一小部分(例如,假设在1000个完整大小的股票中,以最佳报价单独显示100份股票)。当amarket订单发生并消耗部分流动性时(比如说50股),报价通常会更新(我们观察到减少了50股,这很容易匹配)。但是,如果市场订单的数量超过了显示的数量(比如125股),那么它将针对首批100股执行,这些股份立即被之前隐藏的100股所取代,最后25股将针对新显示的数量执行。

19
kedemingshi 在职认证  发表于 2022-5-23 22:12:26
如果此单一市场有一个更新●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●500 1000 2000 5000 10000 200001e-08 1e-06 1e-04订单尺寸密度体积密度●●●●●●●●●●●●●●●●● ● ●●匹配未匹配●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●10: 00 12:00 14:00 16:002e-08 3e-08 4e-08 5e-08有序分布的ts密度●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●MatchedUnmatchedFigure 5:与匹配交易相比,未匹配交易的规模(左,对数-对数比例)和时间戳(右)的经验密度分布。在本例中,匹配3用于股票BNPP。2011年1月整月的PA。顺序,那么最终观察结果是减少了25股。这就解释了这样一个事实,即尽管观察到交易情况,并以相同的价格取消了相应的交易,但价格却不匹配。另一种解释是,一些行报告的交易发生在限额订单簿之外,因此它们对“报价”文件没有影响。不准确之处将出现在“交易”文件中,因为此类交易被视为“账面价值”。为完整起见,图5绘制了规模的经验密度分布和不匹配交易的时间戳,这是我们对这些交易仅有的两个信息。在这些图上,我们观察到,不匹配的交易整天都在发生,其时间戳的密度与不匹配的交易的密度相似,遵循一个众所周知的表示每日季节性的NU型模式。因此,我们无法将不匹配的交易与一天中的特定时段联系起来。然而,我们观察到,不匹配订单的大小明显大于匹配订单的大小(Kolmogorov-Smirnov检验证实了这一观察)。这可能与之前的两个假设一致。

20
kedemingshi 在职认证  发表于 2022-5-23 22:12:29
至于隐藏的流动性,大型市场订单更有可能完全吃掉冰山订单中显示的部分,因此触发流动性,从而阻止精确的规模匹配。这也与“账面交易”一致,因为在账面之外交易的一个原因可能是交易量更大。最后,关于规模的这一发现可能表明,这些订单最终可以通过几个报价修改的汇总来匹配。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-20 16:05