楼主: mingdashike22
1651 52

[量化金融] 高频交易的随机游走 [推广有奖]

31
大多数88 在职认证  发表于 2022-5-6 16:15:34
在我们的应用程序中,我们选择了^m∈ (0, 1).10.1045 0.5922 3.641 0.1259-1369 9 9 9 9 9 6 6 0.10 9 9 9 9 9 9 9 6 6 0.10 9 9 9 9 9 9 9 9 0.489 9 9 9 9 0.0 0 0.489 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 0.0 0.089 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 5883.4.460 0.1386-941698标准。误差(`k=7)(1.314e-02)(3.962e-03)(4.801e-02)(3.704e-04)表2:MSMD模型对`k={1,…,9}的估计和对数似然值。5.3 TMSMD估计第4.3节之后,截断的MSMD模型是通过将MSMD模型与指数分布独立组合而形成的,该指数分布是为确定数据中观察到的最大贸易持续时间而选择的。TMSMD模型下的持续时间只是独立组件产生的最小持续时间。因此,MSMD部件的估算值与上述独立SMD模型的估算值相同,k=7。我们为TMSMD模型选择指数分布的目的是找到随机变量dExp,比如dExp~ Exp(νmax)Emax{dExp}= dmax,其中dmax=56315 ms是在我们的被动周期E-mini数据样本中观察到的最长交易持续时间。附录A推导了max{dExp}:E的期望值max{dExp}= νmaxnXi=1i。

32
可人4 在职认证  发表于 2022-5-6 16:15:38
(12) 0.00 0.05 0.10 0.15 0.20 0.25 0.3095400009520009500009480000946000944000942000940000λ0.0 0.2 0.4 0.6 0.8 1.010100001000009900098000980009700000960000950000940000′γk12 34 5678 9 101010000100000000009900098000970009600000900095000940000B0。0.5 1.01.52.013000001250000120000011500001000110000010500010000095000000M0图11:模型参数协调方向上达到最大值(k=7)时MSMD对数似然曲面的曲线。我们注意到,预期值取决于观察到的持续时间的数量,这通常是预期持续时间v max本身的函数。作为近似值,我们将nequal设置为数据样本中的总时间(48600000毫秒)除以平均持续时间,并四舍五入到最接近的整数:n=最大48600000ν.因此,为了校准νmax的适当值,我们选择^νmax来最小化函数^νmax=argminνν[48600000/ν]Xi=1i- 56315.该问题的数值解为^νmax=5866,见表1。我们不提供该参数的标准误差,因为它是使用观测数据通过数值优化计算得出的,并且对总持续时间和数据的最大值高度敏感。由于在任何候选模型下,模拟持续时间内的变化,通过参数自举估计标准误差是不可靠的。如第4.4.5.4节交易时间高斯估计所示,用该指数截断前一节中的MSMD模型,可以更好地拟合观测持续时间的分布及其样本自相关,本文的关键观察结果在第3节中突出显示,在预先安排好的新闻时段之外观察到的交易时间收益具有高斯分布的良好特征。

33
mingdashike22 在职认证  发表于 2022-5-6 16:15:41
此外,收益和相应的平方收益几乎不存在序列相关性,这表明它们可以被建模为独立的同分布。在这种情况下,分布参数的最大似然估计仅为交易时间收益率的样本平均值和标准偏差,具体值为m。表1的最后两列报告了m=1的这些估计值。相应的引导标准误差报告在估算值下方的括号中。5.5模拟时钟时间返回通过估计手头上的组件分布,我们使用高斯混合模型获得时钟时间返回分布的蒙特卡罗近似值,如方程(5)所示。我们以分层的方式进行这项工作,首先从指数、MSMD和TMSMD模型中模拟m=1的交易间持续时间,将持续时间与估计高斯密度的交易时间收益的独立提取配对,并最终在固定的时钟时间间隔内聚集单个收益。按照上面概述的程序,我们将时钟时间间隔τ=250、500、1000、5000、10000、30000}毫秒的返回进行聚合,直到我们分别获得n={208000、10400052000、10400、5200、1716}时钟时间返回,它们对应于这些时间间隔数据中的观察次数。指数、MSMD和TMSMD模型下的单独模拟使用相同的交易时间回报;它们只区分观察之间经过的时间。重要的是要提到我们为了模拟时钟时间返回而做的三个调整。首先,由于E-mini回报是离散的,且仅以0.25点的增量观测,因此我们模拟上述连续高斯分布的滴答时间回报,然后离散至最接近的0.25增量。

34
何人来此 在职认证  发表于 2022-5-6 16:15:46
例如,0.13的模拟滴答时间回报将离散为0.25,而0.12的模拟滴答时间回报将离散为零。其次,我们对模拟的持续时间(在所有模型下)进行类似的离散化,将数值四舍五入到最短的毫秒。由于在我们的框架中不允许零持续时间,所有低于1毫秒的模拟持续时间都向上舍入。最后,我们下面报告的统计测试要求模型将概率质量(对于锁定时间收益的离散化分布)放在与数据的经验密度相同的支持度上。然而,在某些情况下,模型下的聚合模拟回报在数据中观察到的一组值之外。在这些情况下,我们只需将回报设置为零。虽然这可能会影响模型的结果,但除了一种情况(如下所述)外,其他所有情况下的回报都非常少,因此调整与经验几乎没有关联。表3为每个模型和每个时间尺度报告了以这种方式调整的值的数量(以及它们在总模拟中所占的比例)。对于所有模型的网络时间尺度,这些数字都很低,并且随着τ的增加而增加。独立的MSMD模型在这一维度上表现最好,几乎没有调整,而指数模型在τ=30000 ms时调整16%的回报。然而,对于较小的τ值,指数模型在经验支持之外产生的时钟时间回报要少得多。最后,在最坏的情况下(τ=30000 ms),TMSMD模型需要调整1.1%的模拟回转,但对于τ的所有其他值,分数远低于1%,通常是一个或两个数量级。图12显示了我们考虑的每个τ值的时钟时间返回模拟的Q-Q图。

35
可人4 在职认证  发表于 2022-5-6 16:15:50
前三行中的面板分别对应于指数、MSMD和TMSMD模型。图中最后一行的面板是图3所示E-mini被动周期时钟时间Q-Q图的复制品。从图中可以很明显地看出,MSMD和TMSMD模型下的时钟时间返回显示出重τ250 500 1000 10000 30000Exp计数(分数)2(1e-05)10(0.0001)63(0.00126)158(0.0158)149(0.0298)272(0.16)MSMD计数(分数)0(0.0)1(1e-05)1(2e-05)1.0(0.0001)0(0.0)0(0)0(0.0)0)0(分数)35(0.00075)40(0.0004)24(0.00024)0(0.00024)019(0.011176)表3:在离散观测数据值的支持下,被调整为下降的模拟时钟时间返回数(括号中的分数)。所有τ值的尾部,而指数模型在捕捉峰度方面做得很差,τ的最低值除外。这归因于MSMD模型的特殊性质:它可以被解释为指数分布的混合,它很好地捕捉了观察到的贸易间持续时间相对于简单指数的过度分散。特别是,MSMD模型中潜伏期的持续存在会导致交易间持续时间相对于指数分布的更多变化,从而导致方程(5)中高斯密度的更不均匀混合,从而导致更严重的轻量级荨麻疹。从图12中也可以立即看出,TMSMD返回的分布比MSMD返回的分布更接近数据。事实上,MSMD返回分布将过多的概率质量分配给rτ(t)=0。

36
何人来此 在职认证  发表于 2022-5-6 16:15:53
这直接归因于MSMD持续时间的分布,如图7和图8所示。从这些图中可以看出,MSMD分布的右尾比数据分布的右尾要重得多。这导致大部分交易被很长的持续时间分隔,这导致价格在时钟时间间隔内保持不变(零回报),频率过高。TMSMD模型通过截断MSMD分布的右长尾,并更紧密地拟合数据中观察到的经验分布的尾部,纠正了这个问题。结果是,TMSMD模型下的回报与数据的回报更为一致。为了提供一个正式的fit度量,表4的前三行报告了三种持续时间模型下收益分布的卡方检验统计数据,与收益的经验分布相关。卡方检验是对离散图12的相似性检验:模拟时钟时间返回的样本Q-Q图。上三行面板对应于指数、MSMD和TMSMD模型(分别)下模拟的几个时钟时间间隔τ的返回。面板底部一行是图3所示E-Mini被动周期时钟时间Q-Q图的复制品。分布:在相同分布的零假设下,每个模型和数据的直方图中差异的适当加权总和应以χ(k)的形式分布,其中自由度k小于直方图单元数(随机变量可以假设的唯一值)。表4第四行报告了概率为0.95的分位数——超过这些值的卡方检验统计数据在5%的水平上拒绝了零假设。

37
kedemingshi 在职认证  发表于 2022-5-6 16:15:57
该表清楚地表明,对于τ的所有值,每个模型在5%的水平上都未通过卡方拟合优度检验。然而,这一结果并不令人惊讶:我们先验地知道,我们的模型都不是真实数据生成过程的精确表征。相反,我们的目标是找到一个合适的近似模型。在这种情况下,由于数据集非常大,5.0 0 0 0 0 0 0 0 0 0 MSMD2447.0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 MSMD247.0 0 0 0 0 0 0 0 0 0 15229.0 0 0 7519.8 8 8 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 5 5 5 5 5 5 5 5 5 5 5 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 9029 0.11033 0.11152 0.0414540.0076904 0.014179表4:指数和MSMD持续时间模型下模拟收益的拟合优度统计。前三行报告了相对于我们考虑的每个时钟时间间隔τ的观测数据的χ拟合优度度量。后三行报告了Kullback-Leibler与观测数据之间的差异。卡方检验只是告诉我们,我们有很多数据,我们的模型并不完全正确。然而,更有趣的是,平方统计的大小:MSMD统计一致优于指数统计(通常为一个数量级),而TMSMD统计一致优于MSMD统计(多达两个数量级)。

38
kedemingshi 在职认证  发表于 2022-5-6 16:16:00
事实上,虽然在τ=10000和τ=30000 ms时,TMSMD模型被剔除,但考虑到数据样本和模拟的大小,卡方统计数据与经验对应数据非常接近。为了提供分布距离的另一个衡量标准,表4的最后三行报告了三种持续时间模型下每种收益分布相对于收益经验分布的库尔贝克-莱布勒差异。与卡方检验不同,库尔贝克-莱布勒散度(见库尔贝克和莱布勒(1951))不是对形式假设的统计检验,而是使用一个分布作为另一个分布的近似值时信息损失的度量。对于离散分布F和G overvalues{x}ni=1,G与F的Kullback-Leibler散度定义为asD(F | | G)=nXi=1logF(xi)G(xi)F(xi),这是对数概率比的期望值(在分布F下)。与卡方统计的大小相反,表4显示,指数模型下的回报分布最接近于τ=250 ms和τ=500 ms的数据分布,且一致地接近于MSMD回报的分布。然而,对于较大的τ值,TMSMD模型占主导地位,通常为一个或两个数量级。在该指标下,MSMD模型失效的原因是放置在rτ(t)=0上的高概率质量。图13显示了在每个持续时间模型下模拟的收益率的样本自相关函数,每列面板对应一个时间尺度τ={250、5001000、5000、10000、30000}毫秒。如图12所示,前三行分别描述了指数、MSMD和TMSMD模型下的自相关,而最后一行是图4中E-mini被动周期时钟时间返回的自相关的再现。

39
mingdashike22 在职认证  发表于 2022-5-6 16:16:03
与数据非常相似,模型的返回ACF显示出很小的自相关,尽管MSMD模型似乎具有非常高的非零自相关频率,并且没有显示任何模式。虽然没有一个模型能够捕捉到在单一样本数据(低τ)的低滞后时,由于出价/出价反弹和均值回归而产生的负自相关,但我们的框架中没有明确地对这种动态进行建模,也不期望出现这种动态。在每种模型下模拟的平方收益的样本自相关如图14所示。MSMD和TMSMD模型中存在自相关的持久性,但指数模型中不存在自相关。更重要的是,与独立MSMD相比,TMSMD的平方收益自相关与数据的一致性更高。这种动态是我们推广的框架的一大优势:截断复合多重分形过程可以共同解释瘦肉症和波动性聚集。特别是,图14显示,在TMSMD模型下,平方收益的自相关通常小于被动期E-mini数据的自相关,但随着时间尺度τ的增加,它们表现出类似的下降。图13:模拟时钟时间返回的样本自相关函数。上三行面板对应于指数、MSMD和TMSMD模型下模拟的几个时钟时间间隔τ的收益。面板底部一行是图4中E-mini被动周期时钟时间返回的自相关性的再现。作为模型Fit的最终衡量标准,表5报告了数据中以及三个模型下收益和平方收益自相关函数的Ljung-Box统计数据。

40
可人4 在职认证  发表于 2022-5-6 16:16:06
Ljung-Box统计定义为Q=n(n+2)lXi=1^ρin-i、 式中,^ρiis是滞后i的样本自相关,n是数据中的观测数,l是计算统计的滞后数。在零假设下,所有的自相关都为零,Q~ χ(l)。对于表5中报告的统计数据,weset l=20,但结果对各种其他选择都是可靠的。l的选择决定了χ0.95(20)=31.41的共同5%临界值。表5的前四行报告图14:模拟时钟时间平方返回的样本自相关函数。上三行面板对应于指数、MSMD和TMSMDM模型下模拟的几个时钟时间间隔τ的收益。面板底部一行是图5中E-mini被动周期时钟时间平方返回的自动相关性的再现。返回的ACF的Ljung Box统计数据。有趣的是,对于τ的最低三个值,数据没有通过5%水平的测试,这是因为出价/出价反弹和均值回归具有较大的负自相关。与此相反,指数回归永远不会通过测试,而MSMD回归总是会通过测试,尽管它们的测试统计量随着τ的增加而下降,与数据类似。对于与数据完全相同的τ值,TMSMD返回的结果未能通过测试,但图13的目视检查并不表明存在系统原因。然而,对于τ≥ 5000毫秒时,TMSMD返回不会失败,且具有与数据非常相似的测试统计数据。表5下四行报告了squaredreturns ACF的Ljung Box统计数据。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-31 00:57