楼主: mingdashike22
1976 52

[量化金融] 限额订单簿中的多级订单流不平衡 [推广有奖]

31
何人来此 在职认证  发表于 2022-6-24 09:26:55
小蜱虫种群(即AMZN、TSLA和NFLX)的特征值通常大于大蜱虫种群(即ORCL、CSCO和MU),但在所有情况下,对于所有≥ 2,ITH特征值与第一个特征值的比率始终非常接近0。这有力地表明,多元OLS回归得到的参数估计是不稳定的。因此,对OLS回归得出的βmcoe系数的直接解释可能会产生一种误导性的画面,即m级出价和要价的净订单流动如何真正影响中间价的同期变化。特征值数字104103102101100101102特征值大小图2:图1.5中所示样本相关矩阵的特征值。岭回归适合MLOFI为了解决我们在第5.3节中发现的多重共线性问题,我们现在采用另一种方法来拟合MLOFI方程的参数(16)。具体而言,我们实施岭回归,旨在通过在多元回归方程中引入正则化项来消除多重共线性的影响。有关岭回归的完整讨论,请参见Hoerl和Kennard【1970年】。对于给定的股票,在给定的时间窗口长度内T,对于给定的M选择,lety:=(P、 ····,PK)T,X:=1百万欧元。MLOF IM。。。。。。。。。。。。1 MLOF IK。MLOF IMK,β:=(α,β,···,βM)T和ε:=(ε,···,εK)T,其中ε的元素是平均值为0的独立同分布(iid)高斯随机变量。使用此符号,我们可以重写MLOFI线性模型asy=Xβ+ε。

32
kedemingshi 在职认证  发表于 2022-6-24 09:26:58
(17) 在岭回归中,而不是简单地寻找使Leatsquares成本函数| | y最小化的β值- Xβ| |,我们取而代之的是寻求使Ridgeregression成本函数c(β,λ)=| | y最小化的β值- Xβ| |+λ| |β| |,,(18)其中超参数λ≥ 0控制正则化的强度。直观地说,对于λ的任何选择,λ| |β| |作为代价函数中的惩罚项。回归参数的大小越大,惩罚越大。不稳定的OLS回归函数通常会导致非常大幅度的拟合回归参数。在Ridgeregression中,正则化有助于将成本函数的全局最大值从原本不稳定的回归函数中移开。5.4.1选择正则化参数λ我们使用5倍交叉验证来选择正则化参数λ的合适值。具体而言,我们考虑50个对数间隔的候选值λ的范围-5和10,我们选择产生最小交叉验证误差的值^λ。有关交叉验证的详细介绍,请参见Hastie等人【2009年】。为了说明这一过程,图3显示了平均交叉验证误差作为AMZNλ的函数。如图所示,平均交叉验证误差中存在明显的局部最小值,即λ≈ 表7显示了我们样本中每种股票的相应^λ值。105103101101103105100120140160180200220240交叉验证错误图3:平均交叉验证错误AMZN。我们考虑50个对数间隔的候选值λ在10之间的范围-5和10。AMZN TSLA NFLX ORCL CSCO MU^λ139.0 54.3 33.9 3.2 1.3 2.0表7:岭回归成本函数中^λ的交叉验证估计(18)。

33
kedemingshi 在职认证  发表于 2022-6-24 09:27:01
我们考虑50个对数间隔的候选值λ在10之间的范围-5和10(见图3)。5.4.2多重线性回归的岭回归拟合表8显示了我们对每只股票进行的2772次回归中的平均拟合回归系数及其平均标准误差。表9显示了在95%水平上显著的相应t统计、p值和样本百分比。AMZN TSLA NFLX ORCL CSCO MUα-0.05 (0.43) 0.01 (0.23) 0.01 (0.07) 0.00 (0.01) 0.00 (< 0.01) 0.00 (< 0.01)β2.17 (0.50) 1.28 (0.26) 0.46 (0.10) 0.05 (0.01) 0.03 (0.01) 0.04 (0.01)β1.99 (0.49) 1.04 (0.26) 0.42 (0.10) 0.06 (0.01) 0.04 (0.01) 0.04 (0.01)β1.85 (0.49) 0.90 (0.25) 0.39 (0.10) 0.05 (0.01) 0.03 (0.01) 0.06 (0.01)β1.44 (0.48) 0.78 (0.25) 0.37 (0.10) 0.05 (0.01) 0.05 (0.01) 0.08 (0.01)β1.21 (0.48) 0.70 (0.25) 0.34 (0.10) 0.07 (0.01) 0.06 (0.01) 0.08 (0.01)β1.09 (0.47) 0.69 (0.25) 0.32 (0.10) 0.09 (0.01) 0.08 (0.01) 0.09 (0.01)β1.01 (0.47) 0.63 (0.25) 0.33 (0.10) 0.09 (0.01) 0.08 (0.01) 0.08 (0.01)β0.92 (0.46) 0.57 (0.24) 0.32 (0.10) 0.08 (0.01) 0.08 (0.01) 0.08 (0.01)β0.89 (0.46) 0.53 (0.25) 0.36 (0.10) 0.07 (0.01) 0.07 (0.01) 0.07 (0.01)β1.01 (0.48) 0.60 (0.25) 0.46 (0.10) 0.09 (0.01) 0.06 (0.01) 0.07(0.01)表8:MLOFI方程的岭回归参数估计(16)。括号中的数字表示已拟合参数的平均值,括号中的数字表示标准误差的平均值,每个值取自我们执行的2772次回归(见第4.2节)。

34
何人来此 在职认证  发表于 2022-6-24 09:27:04
对于每种股票,我们使用5倍交叉验证来选择λ的值(见第5.4.1节)。我们通过van Wieringen【2015】第1.4.2节中给出的公式获得岭回归的标准误差。AMZN TSLA NFLXRidge t-stat p值计数%t-stat p值计数%t-stat p值计数%α-0.17 0.23 29%0.07 0.31 32%0.16 0.29 9%β4.87 0.02 93%5.35 0.02 94%5.65 0.02 79%β4.73 0.03 92%4.90 0.03 91%5.81 0.03 78%β4.47 0.04 89%4.41 0.05 86%5.87 0.04 77%β3.92 0.07 82%4.07 81%5.86 0.04 75%β3.52 0.10 74%3.79 0.09 77%5.56 0.05 72%β3.29 0.11 70%3.76 0.09 77%5.31 0.06 68%β3.140.13 67%3.55 0.10 73%5.24 0.06 67%2.98 0.15 64%3.30 0.12 69%5.20 0.06 67%2.89 0.16 63%3.13 0.13 68%5.37 0.05 71%2.81 0.15 64%3.07 0.13 68%5.76 0.03 78%ORCL CSCO MURidge t-stat p-value count%t-stat p-value count%0.26 0.20 51%0.27 0.16 63%0.17 0.16 60%β5.81 0.04 89%4.93 0.08 80%5.86 0.07 83%β6.75 0.03 90%6.57 0.06 84%6.42 0.06 85%β5.86 0.06 84%5.69 0.12 72%8.91 0.03 92%β6.10 0.07 83%8.23 0.05 86%10.59 0.02 94%β8.07 0.03 93%9.42 0.03 92%10.88 0.02 95%β9.54 0.01 97%11.39 0.01 97%11.52 0.01 97%β9.61 0.01 97%12.29 0.01 98%10.80 0.01 96%β8.94 0.02 95%11.20 0.02 96%10.45 0.02 96%β8.47 0.02 94%9.53 0.02 94%9.23 0.02 93%β9.32 0.01 97%8.51 0.03 92%9.11 0.02 94%表9:统计显著性检验(即,平均t统计量、平均p值和95%水平上显著的样本百分比)岭回归参数对MLOFI回归方程(16)的拟合,在我们执行的2772次回归中进行(见第4.2节)。对于截距系数α,我们使用岭回归得到的结果与使用OLS回归得到的结果相似(见表5)。

35
能者818 在职认证  发表于 2022-6-24 09:27:08
在所有情况下,我们再次发现α≈ 0,这表明我们样本中所有股票的买方和卖方行为近似对称。对于βmcoe系数,我们通过岭回归(见表8和表9)得到的结果与通过OLS回归(见表5和表6)得到的结果非常不同。最值得注意的是,使用岭回归得到的β值比使用OLS回归得到的β值具有更强的统计显著性和更小的方差。总之,这些结果表明岭回归在克服多重共线性引起的问题方面做得很好。在第5.2节中,我们避免对通过OLS回归获得的βmcoe系数值进行定量分析,因为许多已确定参数的统计显著性较弱,可能导致我们得出误导性结论。相比之下,岭回归得到的几乎所有βm的拟合值在统计学上都非常显著(见表9)。因此,我们现在将注意力转向解释这些价值观。对于小蜱类股票(即AMZN、TSLA和NFLX),βmcoe系数的设定值大致随m的增加而减少。这表明,对于小蜱类股票,最接近买卖价差的订单流动活动对中间价的同期变化影响最大,但深入LOB的订单流动活动仍然发挥作用。对于大型蜱虫种群(即ORCL、CSCO和MU),βmcoe系数的拟合值都很小,但不为零,并且在统计上非常显著。随着m的增加,拟合值也没有明显下降(如果有任何变化,则似乎略有增加)。

36
mingdashike22 在职认证  发表于 2022-6-24 09:27:11
这表明,对于大型股票,所有第一个M=10价格水平的订单流量活动都会影响中间价的同期变化。为了更详细地分析这一结果,我们现在将注意力转向评估已拟合的MLOFI方程(16)在多大程度上反映了FIRSTM价格水平下的净订单流量与中期价格同期变化之间的关系,对于一系列不同的M.5.5评估拟合优度的选择为了评估回归的拟合优度,我们首先关注Cont等人【2014年】,考虑到测定R的调整系数。然而,我们注意到,由于我们在第5.3节中报告的多重共线性问题,分析调整后的系数可能会产生误导。因此,我们还研究了另一种拟合优度度量:抽样外MSE。5.5.1调整后的RFM对于给定的M选择,调整后的Rstatistic描述了输出变量的方差百分比(即给定时间窗口中的中间价变化),该百分比由同一时间窗口内MLOFI向量的前M个分量解释,使用MLOFI方程(16)中的系数。图4显示了我们样本中每种股票的平均调整后RFM∈ {1, 2, . . . , 10}.1 2 3 4 5 6 7 8 10 0.40.50.60.70.80.91.0调整后的R2AMZN OLSAMZN RidgeCSCO Olscco RidgeMU OLSMU Ridgeflx OLSNFLX RidgeORCL OLSORCL RidgeTSLA OLSTSLA Ridge图4:各种M选择的平均调整后统计数据,用于MLOFI方程(16)的(实线)OLS和(虚线)岭回归函数。M=1的情况对应于仅使用一级出价和要价的净订单流量(即OFI方程(7))。该案例是Cont等人【2014】的主要关注点。当M=1时,相应的回归是单变量的,因此OLS回归的输出与岭回归的输出相同。

37
何人来此 在职认证  发表于 2022-6-24 09:27:14
稀有股票的价值最大的是大型股票。总的来说,我们的结果与Cont等人[2014]的结果相似,他们报告的值在0.35到0.8之间。对于我们样本中的所有股票,当使用OLS回归或岭回归时,平均调整后的R随M增加。因此,当使用Ras时,优度测量,包括LOB更深的额外水平,提高了Lofi方程的优度(16)。当M较小时,增长率最大,当M较大时,增长率相对较小。这表明,为了解释中间价的变动,在LOB更深层次的净订单流量中确实存在有用的信息,但其影响随着与买卖价差的距离增加而减小。对于AMZN和TSLA(我们样本中最小的蜱类种群),对于OLS回归,M=10的平均调整后的R值约为0.65,对于Ridgeregression,平均调整后的R值约为0.6;对于NFLX,对于OLSregression,M=10的平均调整右值约为0.9,对于岭回归,平均调整右值约为0.85;对于ORCL、CSCO和MU(这是我们样本中最大的蜱类股),M=10的平均调整右值都非常接近1。这表明,对于大型股票,M=10的MLOFI方程可以解释中间价变化的大部分(样本内)方差。对于所有M>1的值,调整后的Rfrom OLS回归大于相应的调整后Rfrom岭回归。从数学上讲,该结果是在岭回归成本函数(18)中包含惩罚项的直接结果。在Ridgeregression中,惩罚项可以减少已确定参数的方差,但这样做的代价是引入偏差。

38
kedemingshi 在职认证  发表于 2022-6-24 09:27:17
相比之下,标准多元OLS回归得出的相应参数估计值是无偏的,但在多重共线性存在的情况下,它们可以表现出非常大的方差,就像我们的数据一样(见第5.3节)。这可能导致OLS回归函数在样本外表现不佳。正如我们在下一节中所揭示的,情况确实如此。5.5.2样本外均方根误差虽然分析调整后的Rhelps以深入了解不同M值的已拟合MLOFI方程(16)的样本内特性,但这种优度度量也克服了当前应用中的两个重要缺点。首先,也是最重要的一点,调整后的Ris是一种样本内测量,因为它使用相同的数据点来执行回归,并估计分布关系的方差特性。考虑到我们在第5.3节中描述的多重共线性问题,样本度量中的suchan可能会低估样本外的真实方差。这就产生了一个问题,即在MLOFI方程(16)的背景下,调整后的Ris是否真的是一个有意义的度量。其次,调整后的Rmeasure是一个什么样的概念,因为它试图量化解释的方差分数(这是一个无量纲的量),而不是输出误差,输出误差具有“价格”维度。这使得很难解释调整后的Ris中的给定变化是否具有经济意义。为了解决这两个问题,我们还研究了另一种衡量指数的方法:样本外均方根误差(RMSE)。我们使用类似于5倍交叉验证的方法来计算样本外MSE。对于每只股票,我们首先将数据集分成5个单独的折叠。

39
nandehutu2022 在职认证  发表于 2022-6-24 09:27:20
对于给定的褶皱,我们使用其他4个褶皱中的所有数据,通过OLS或岭回归拟合MLOFI方程(16)的参数。然后,我们计算相同4倍的拟合MLOFI方程(16)的RMSE。我们称之为样本内RMSE。然后,我们使用相同的ttedparameters来估计其他倍数的RMSE(这在回归系数中未使用)。我们称之为样本外RMSE。我们分别对5个文件夹中的每一个重复此过程,并记录这5个重复的样本外RMSE平均值。图5显示了AMZN(我们样本中最小的蜱虫)和MU(我们样本中最大的蜱虫)的样本内和样本外平均RMSE。forTSLA的结果与AMZN的结果在质量上相似;所有其他股票的结果在质量上与MU的结果相似。1 2 3 4 5 6 7 8 9 10M7.07.58.08.59.09.510.0样本中的均方根误差(ticks)AMZN OLS 1 3 5 6 7 8 10M0.0250.0500.0750.1000.1250.1500.1750.2000.2250.250样本中的均方根误差(ticks)MU OLS 1 2 3 5 6 7 8 9 10M7.07.58.08.59.09.510.0样本外的均方根误差(ticks)AMZN脊1 2 3 4 5 6 7 8 910M0.0250.0500.0750.1000.1250.1500.1750.2000.2250.250根均方误差(ticks)样本中的MU Ridge样本外的MU Ridge图5:通过使用(顶行)OLS回归和(底行)Ridge回归拟合MLOFI方程(16),获得(左面板)AMZN和(右面板)MU的样本内平均值(虚线)和(实线)样本外RMSE。TSLA的结果与AMZN的结果定性相似;所有其他股票的结果与MU的结果在质量上相似。对于所有股票,当同时使用OLS回归和岭回归时,取样器内的MSE随着M的增加而减少。

40
kedemingshi 在职认证  发表于 2022-6-24 09:27:24
对于NFLX、ORCL、CSCO和MU,当使用OLSregression时,样本外RMSE也会随着M的增加而减少。然而,对于AMZN和TSLA,通过OLS回归获得的样本外RMSE首先下降,但当M值大于约5时,则随后上升。这是过度装修的经典标志。对于我们样本中的所有股票,当使用岭回归时,样本外RMSE随着M的增加而减小。这表明岭回归成本函数(18)中的正则化参数成功地抵消了我们在AMZN和TSLA的OLS函数中观察到的过度拟合的影响。1 2 3 4 5 6 7 8 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10根均方误差(ticks)AMZN OLSAMZN RidgeCSCO OLSCSCO RidgeMU OLSMU RidgeNFLX OLSNFLX RidgeORCL OLSORCL RidgeTSLA OLSTSLA Ridge图6:通过使用(实线)OLS回归和(虚线)岭回归拟合MLOFI方程(16)获得的样本外平均RMSE。图6显示了我们样本中所有股票的样本外平均RMSE,使用OLS回归和岭回归。正如我们在第5.5.1节中所述,当M=1时,OLSregression和岭回归产生相同的输出。在这种情况下,与我们在检查调整后的R时的结果一致,大型蜱虫种群的拟合优度最大(即抽样外的MSE最小),而小型蜱虫种群的拟合优度较弱。对于我们样本中的所有股票,当使用OLS回归或Ridgeregression时,RMSE随着M的增加而降低。因此,与我们的结果一致,当检查调整后的R时,我们再次得出结论,在LOB中加入更深的额外水平可以提高MLOFI方程的拟合优度(16)。当M较小时,改善率再次最大,当M较大时,改善率相对较小。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-28 13:42