楼主: 能者818
946 24

[量化金融] 买卖价差偏差持续时间的生存模型 [推广有奖]

11
能者818 在职认证  发表于 2022-5-6 08:30:20
c是确定性的,随时间变化是恒定的t表示交易日中利差超过阈值c的第i个随机时间瞬间。正式地说,我们定义为inf{t:St≥ c、 t≥ Ti,t>t},其中t表示观察窗口的开始(交易日开始后1分钟)。oτi表示相对于超出事件Ti,流动性度量阈值c以上的压力的持续时间,单位为ms。这些是响应变量,对应于价差偏差的持续时间。我们施加一个上界τi≤TD-Ti,其中Td表示观察窗口的结束(交易日结束前1分钟)。如果在时间TD之前,流动性度量STC尚未恢复到阈值C,我们认为观察已被审查。如本节所述,在模型估算中,必须单独考虑经过审查的观测结果。使用这种符号,我们将Pmt=(Pa,1t+Pb,1t)定义为报价中点或中间价的随机变量。此外,我们用T Vb表示第i个投标级别的总可用容量,它=1Tn·Vb,其中1nis是1s的列向量。然后,我们用与时间、价格和大小相关的信息表示传入的购买限制订单,订单id为lb=(lt、lp、ls、id)。对于阈值c,在本文中,我们对2012年1月2日的价差进行了所有观测。利用这些观察结果,我们构建了经验分布,并将阈值定义为该分布的中值,该中值对应于e0。3美分。B.观察基于这些定义,我们现在可以正式定义观察随机变量,以说明我们开发的生存回归框架。

12
kedemingshi 在职认证  发表于 2022-5-6 08:30:23
在我们开发的回归框架中,我们将选择如上所述的阈值c,并确定扩散偏差的持续时间:τi=infnt:pa,1Ti+t- pb,1Ti+t≤ c、 t≥ Ti,t>ToWe认为c由中位数给出,因此τiisa是代表偏离“正常”流动性水平的持续时间的随机变量。为了理解这种偏差事件是如何产生的,偏差的“诞生”可能来自于市场订单,也可能来自于取消了一个或多个级别的出价或要价的书籍顶部的取消。在我们这里介绍的分析中,我们没有区分偏差的两个来源,但我们的模型足够灵活,可以很容易地适应这一点,例如通过使用虚拟变量来指示该来源。Ti+τi时的后续“死亡”将由到达排列内部的限制指令产生,因此新排列最多为c:olp≥ pa,1Ti+τi- c.购买限价订单;或olp≤ pb,1Ti+τi+c表示要出售的限价订单,其中lp是传入限价订单的价格。C.建模持续时间的生存分析RVIVAL分析是一种用于建模特定事件发生前的时间的方法,例如某些部件的故障或个体的死亡。它的有用之处在于:o它可用于可进行审查观察的情况,即在观察期内未发生感兴趣的事件。

13
可人4 在职认证  发表于 2022-5-6 08:30:27
例如,在研究机械部件的寿命时,我们可能会发现,在观察期结束时,一些部件仍在工作,在这种情况下,我们对它们的唯一信息是,它们的寿命超过了观察期它可以被纳入回归框架,因此我们可以通过解释性协变量来解释感兴趣变量中的一些变化。在本章中,我们打算使用该技术来模拟偏离(中值)阈值的扩散持续时间。假设这些观测值有一个相关的概率密度函数f(t)和累积性函数f(t)=P(τ<t)=Rtf(t)dt。根据这些,我们可以计算生存函数S(t)=1- F(t),即偏差在持续时间t后仍然存在的概率,以及危险函数h(t)=F(t)S(t),这是瞬时死亡率,假设它已存活到该点。如果所有观测都是未经审查的(且独立且均匀分布),那么我们可以简单地通过标准最大似然估计来估计模型,其中对于给定的参数向量θ,似然函数isL(θ|τ…τn)=f(τ…τn |θ)=Qni=1f(τi |θ)。然而,由于存在截尾观测,必须调整似然函数的计算以反映这一点。对于截尾观测,我们只知道寿命τi超过了最大观测时间TD- 正如我们所说,审查是非信息性的(也就是说,审查的时间与失败的时间无关)。

14
mingdashike22 在职认证  发表于 2022-5-6 08:30:30
对该事件发生可能性的贡献为thenLi=S(TD- Ti)(1)如果我们为这些观察假设Ti与Td无关- 然后我们可以得到如下似然函数:L=Qni=1Li=qf(τi)QCS(Td- Ti)其中U和C分别为未经审查和审查的观测值。在实践中,对于给定的固定阈值c,一旦出现i-the EXCEADE(当时的超额),则无法保证流动性过程会在交易日内通过该阈值返回。然而,我们确实假设,在一定时间内,最终会发生相关事件(即流动性指标低于阈值),即流动性过程是均值回复。如果没有这个假设,我们为生存时间f指定的密度,即模拟持续时间分布的密度,将是不合适的,因为它不会在其支持下正常化为统一。然后我们必须计算实际发生的事件的密度条件。在生存分析中,有两种主要方法用于对这些持续时间进行建模:1)采用Cox比例风险模型,其中模型协变量通过风险函数h(t)影响持续时间;2)采用加速失效时间(AFT)模型,其中模型协变量通过改变τ的基线分布来影响持续时间。有关这两种模型的详细描述,请参见[20]。在本文中,我们使用了AFT模型,该模型的显著特点是模型协变量对生存时间具有乘性影响。在最简单的情况下,我们可以使用以下简单线性回归对阈值水平以上的第i次超越的对数进行建模:log(τi)=xiβ+ε然后我们得到:τi=exp(xiβ)τ0,在这种情况下,协变量和参数都是固定的。根据我们假设的εt分布,我们得到了不同的参数模型。

15
能者818 在职认证  发表于 2022-5-6 08:30:34
在本文中,我们假设ε~ N(0,σ),因此持续时间具有对数正态分布。我们还考虑了持续时间随机变量分布的其他选择,包括广义伽马分布。然而,我们选择了对数正态情形,因为它更容易拟合,并且允许我们探索大量的模型结构。在对数正态情况下,观察随机变量具有以下分布函数和生存函数:f(t | xi)=t√2πσexp[-(对数(t)- xiβ)2σ]S(t | xi)=1- F(t|xi)=-erf(对数(t)- xiβ√2σ)定义u=对数(t)-xiβ√2σ. 那么对数似然为:l(β,σ)=logl(β,σ)=∑i∈Ulog(f(τi))+σk∈阻塞(S(τk))=i∈U[-对数(τip(2π(σ))- ui]+∑k∈木屐(-erf(uk))关于βjandσ的偏导数为:Lβj=∑i∈U[2ui·xi,jp2(σ)]+∑k∈C[√πexp(-英国)xk,j√2(σ)-erf(英国)]Lσ=σi∈U[-1+2uiσ]+σk∈C[-√πexp(-英国)(英国σ)-erf(英国)]我们使用R中的标准优化包,采用新的梯度下降法,通过MLE估计参数。AFT回归框架假设我们可以通过时间的重新缩放,直接将持续时间与公共协变量和阈值特定协变量的组合相关联。给定变量系数的符号表示该变量对扩散偏差持续时间将超过时间t.D的条件概率的部分影响方向。模型LOB协变量我们在模型结构中考虑以下协变量。在下文中,LOB的“级别”定义为至少有一个静止限制顺序的级别。

16
kedemingshi 在职认证  发表于 2022-5-6 08:30:37
因此,出价的前5个级别是最接近报价中点的5个级别,这里有可交易量根据x(1)t=Pi=1获得的时间t时LOB前5个级别中的任务总数弗吉尼亚州(式中|·|是特定级别的订单数量),并在下文中表示为询问o根据x(2)t=Pi=1获得的时间t时LOB前5个级别的投标总数Vb,它, 表示的投标量o根据x(3)t=Pi=1T Va获得的在时间t时Lob前5级的总投标量,表示为askV体积o根据x(4)t=Pi=1T Vb获得的在时间t时Lob前5级的总投标量,表示为bidV Volumeo在LOB中已收到价格或尺寸修订(因此取消并以相同订单ID提交)的投标数量x(5),表示为BidModified。o在LOB中,接受了价格或尺寸修订的任务数x(6),用askModif ied表示时间t时前5级投标的平均年龄(以毫秒为单位)x(7)tof,用投标年龄表示平均年龄x(8)tof要求在前5个级别的时间t,用askAge表示第i次超越发生点的瞬时扩散值,由x(9)t=pa,1t给出- pb,1t- 1.o对于之前定义的9个协变量,我们还包括指数加权滞后版本。例如,在x(s)t变量的情况下,相应的滞后协变量值由以下公式给出:EW Lx(s)t=dXn=1wnx(s)t-N(2) 其中,对于时间t,我们认为w=0.75是加权因子,d=5是我们考虑的滞后值的数量,并且 = 1s是标记值之间的间隔。这些协变量在下文中用“l”前缀表示。o区间[t]中以前的偏差数-δ、 t]高于阈值水平,δ=1s,用prev表示。五、

17
能者818 在职认证  发表于 2022-5-6 08:30:41
结果与讨论为了实证评估我们的模型对价差偏差持续时间变化的解释力,我们采用了第IV-C节中描述的AFT模型公式。我们的数据集由82天的交易样本组成,为了验证我们的模型,我们可以假设整个期间价差偏差持续时间的平稳性,只有一天。我们发现,前者不是一个很好的假设,因为已安装模型的系数值在这段时间内有所不同。对于用于解释扩散偏差持续时间的两个协变量,我们在图4中显示了四个月期间系数的可变性。固定每日模型中的系数各不相同,因此我们无法假设样本期内的平稳性。-1.6-1.4-1.2-1-0.8-0.6-0.4-0.2日期之前的超标系数2月至3月至4月-0.50.00.5日期滞后的投标系数为2月至3月,如图所示。4.在我们的样本周期内,先前偏差数量和(滞后)投标数量系数的固定每日模型的变化a。模型选择在统计建模中,最突出的问题之一是找到最佳回归方程,这需要选择协变量子集,以优化某些选择标准[13]。包括额外的协变量总是会增加模型的解释力,但可能会导致过度拟合。因此,用于模型选择的一种常见方法是惩罚对数似然分数的最小二乘法,以便将模型大小考虑在内。这有利于更节省的模型,标准的例子有Mallows的Cp和Akaike的信息标准。0.050.100.150.20R-squaredJan二月三月四月。5.

18
何人来此 在职认证  发表于 2022-5-6 08:30:44
随着时间的推移,调整后的r平方值根据调整后的确定系数(adjustedR)评估了我们模型的解释性能,我们在这里简要解释了这一点。确定系数isR=SSeSTw,其对应于回归模型解释的总变化,其中SSE和SSTar分别为解释的平方和和和平方和。当产生额外的解释变量时,我们总是认为右值会增加。调整后的Ris通常用于替代它,因为它会惩罚较大的模型:Radj=1- (1 - R) N个- 1N- K- 1我们发现,与旨在解释感兴趣LOB数量变化的回归模型相比,我们的模型具有强大的解释力。在上述5天的模型中,我们对上述5天中的部分天数进行了调整,得出的分数为15%。由于这是完整模型的结果,我们也应该能够通过选择最大化调整后R的子集来改进这一结果。然而,这会带来计算问题。在amodel中包含p协变量的回归模型中,我们有2p-1.可供选择的型号。作为pincreases,对可能模型的整个空间的穷举搜索因此在p中是指数的。尽管已经讨论了提高搜索效率的策略,例如[13],对于p的大值,在计算能力方面,通过所有可能模型的穷举搜索是禁止的。为了在模型空间中进行搜索,我们对R[23]中的leaps软件包进行了修改,该软件包使用了[12]中描述的分支定界算法的有效版本。该算法可以通过消除搜索空间的大部分来提供巨大的性能改进。

19
大多数88 在职认证  发表于 2022-5-6 08:30:47
它保证终止,产生最大化我们选择标准的子集。对一般算法的简要描述如下:对于分区模型空间中的一组给定模型,该算法分别计算该模型集的超级模型和子模型的选择准则的上界和下界。如果在搜索过程中,发现另一个模型的选择标准分数高于上限,则可以安全地忽略给定的集合,因为它无法生成性能更好的模型。否则,将进一步对集合进行分区。这个过程和划分会一直重复,直到我们得到一个单子模型,然后对它进行评估。在我们的例子中,对于每个模型子空间Mi,i=1。p、 其中,mic包含所有可能的模型,其中i参数为-C圆周率=P我(p-i) !!模型总数——我们正在寻找最大化调整后R标准的模型。我们对leaps数据包的修改在于结果的呈现,以便在图6中区分被选为模型一部分的协变量(“当前”)和在特定模型中重要的协变量(“重要”)。由此,我们观察到,当我们在子空间中移动时,协变量始终存在。这很有趣,因为它为我们提供了一个相对的度量,在模型的不同简约假设中,协变量的贡献。特别是对于更高的模型子空间,每个子集模型中的一些协变量并不显著,我们在5%的显著水平上区分了显著与否的协变量。图6。每个子空间的最佳模型。阿尔斯通股份有限公司(Alstom SA)股票的一个交易日Mp fit。模型按最佳调整右值排序,我们看到,在这种情况下,最佳评分模型是使用13个协变量的asubset获得的。

20
能者818 在职认证  发表于 2022-5-6 08:30:51
我们区分被发现有意义或无意义的协变量。在最佳模型中的13个协变量中,只有9个在5%水平上显著。每个模型子空间的最佳模型按调整后的右值排序,尽管前11行中的最佳模型差异非常小(它们只在分数小数点后的第三个点存在差异)。图中的垂直线表示协变量,这些协变量始终是每个子空间的最佳模型的一部分。我们观察到,之前偏差的分布和数量是协变量,它们始终是每个子空间的最佳模型的一部分。(截取)askageaskModifiedAskVolumeBidBidBidModifiedBidVolumeLaskLaskModifiedAskVolumeBidBidGelBidModifiedBidVolumeSpreadsPrev超额价差-1012345高效图。7.阿尔斯通股份有限公司(Alstom SA)任何尺寸的最佳模型系数(根据调整后的数值)。每个箱线图的宽度与四个月内协变量在最佳模型中出现的次数的平方根成正比。为了比较每个协变量的相对效应,我们首先对协变量值进行标准化,使其具有相同和标准偏差。我们每天在数据集中进行上述分析,每次都选择性能最好的(调整后的Rscore的中间值)模型。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-25 13:29