楼主: 可人4
1217 21

[量化金融] 自激马尔可夫调制计数的滤波器和平滑器 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-5-5 05:48:05
这限制了这些稳健过滤器的实际适用性。4参数估计为了实现这些过滤器,通常需要使用训练数据集估计过程的参数。我们将我们的估计分为两部分——确定λ的参数的估计和链的传递矩阵A的估计。这种区别很有用,因为相对于基础链中的跳数,我们通常会在Y中观察到大量跳数——事实上,正是这种“多尺度”行为允许过滤器工作。由于A的估计取决于X的跳跃次数,这意味着我们通常能够很好地估计λ的参数,但是我们对A的估计需要大量的数据(相应地,成本也要高得多)。4.1观测参数我们继续寻找给定状态路径X的最大似然估计器,然后我们可以将其与EM算法相结合。下面的结果是标准引理2(例如参见[7])。给定X的对数似然函数和区间[0,T]上的观测值,加上常数Xu:Yu6=0logλ(u,Xu,Y(·))-ZTλ(u,Xu,Y(·))然后,假设概率^ru=E[Xu | Yu],这就得到了部分信息似然函数∝ 鲁。我们用λ(u,ei,Y(·))为向量写λuf。引理3。在区间[0,T]上观察到的对数似然函数,加上常数Xu:Yu6=0h^ru,对数(λu)i-ZTh^ru,λuidut根据λ的性质,可以对该函数进行数值优化或解析优化。然后,EM算法允许我们在给定λr的参数(可以使用数值优化技术实现)和给定λ参数(可以使用滤波方程实现)之间进行迭代。备注5。

12
可人4 在职认证  发表于 2022-5-5 05:48:09
在某些情况下,可能很难为λ的参数指定良好的初始值,然而,绘制观测数据可能会通过检查揭示自然近邻聚类。使用这种特殊聚类作为r的初始值,我们可以首先计算λ的参数,然后通过过滤器实现这些参数。下面使用这种技术。备注6。对于实际数据,这种方法可能会有问题,因为它对理论模型的偏差非常敏感。确定能够产生稳定、稳健方法的修改是一个持续研究的领域。考虑到EM算法中的反馈效应,这个问题可能非常重要,并且很容易出现在实际数据中。4.1.1示例:离散观测霍克斯过程在离散时间内,这种对数似然的各种近似是可能的。给定(1)和(2)中λ和r的先前计算值,xid^rti给出了一个简单的近似值,δYtilog(λti)-1)- λti-1(ti)- 钛-1) 可以快速计算。然后,可以使用各种数值方法使该函数最大化。4.2基础链动态为了估计基础链转移矩阵,通常成本非常高,因为与观测数量相比,链的跳跃很少。这意味着,即使对基础链进行了完美的观察,过渡矩阵的估计也会很差。一种建议的方法(例如参见[10])是使用EM算法,其中隐藏变量是状态之间的转换次数以及每个状态的占用时间。然而,这种方法在这种情况下会退化,如下所示。设J是带有条目Jij的随机矩阵,其中jiji是观察期内从状态i到状态J的转换次数,Jii=-Pjjij对于所有i.让K是每个状态的占用时间的向量。

13
可人4 在职认证  发表于 2022-5-5 05:48:11
然后,从X的结构,如^rt=E[Xt | YT]我们知道E[K | YT]=EhZ]0,T]Xt-dtYTi=Z]0,T]rtdtE[J|YT]=EhZ]0,T]Xt-dX>tYTi=EhZ]0,T]Xt-十> t型-A> dt+Z]0,T]Xt-dM>tYTi=Z]0,T]E[Xt-十> t-|YT]A>dt=diagZ] 0,T]rtdtA> 。因此,给出A的初始估计值,我们有[J | YT]≈ 诊断Z] 0,T]^rtdt^A>=diag(E[K|YT])^A>。给定跃迁次数(J)和占用时间(K)的最大似然估计为J>diag(K)-因此EM算法给出了估计值[J | YT]>diag(E[K | YT])-1=^Adiag(E[K | YT])diag(E[K | YT])-1=^A因此,从一些初始估计开始,迭代EMalgorithm,我们得到估计序列^A=^A=。。。由此可知,以这种方式应用的EM算法确实会产生速率矩阵的一致性估计。我们在对真实数据建模时采用的另一种观点是,将模型中的速率矩阵视为过滤器的“调整参数”,应在校准期间使用专家判断来确定。从这个角度来看,我们可以选择一个参数化的速率矩阵族,例如nA=-1 11 -1.;  > 0o然后在校准期间选择 这使得过滤器在确定基本状态时具有可接受的性能。当如果规模较大,则允许频繁切换状态,而 如果速度较慢,则在过滤器检测到状态变化之前需要strongerdata。然后,应通过考虑样本外性能来确定该参数选择的有效性。5模拟数值结果为了评估这些方法的准确性,方程式(1)和(2)给出的算法在R中实现。

14
kedemingshi 在职认证  发表于 2022-5-5 05:48:15
首先模拟马尔科夫链(在连续时间内),然后使用绪方[21]的方法和分支方法(如[19]的算法1所建议,忽略边缘效应)的组合来模拟马尔科夫链跳跃之间的霍克斯过程,从而模拟数据。选择参数值以给出以下行为。我们有两个状态链,在模拟的时间尺度上有一些跳跃。在FirstState中,Y过程具有明显的自激性,但基频率较低,即α较小,β和γ较大。在第二种状态下,该过程是可忽略的自激过程,但具有较高的基速率,即α为中等大,β为小,γ为中等小。然后选择这些参数,这样,如果基础状态保持不变,那么每个状态下的长期平均跳变率是相同的。对于模拟视界ofT=1000,选择的值为过渡矩阵=-0.01 0.010.01 -0.01观测参数αβγ状态1 10/7状态2 18 0.01 0.1在没有状态变化的情况下,在长期内,每个状态的平均跳跃率为20=α1-单位时间的β/γ。记录每次间隔长度为0.1的跳跃次数。下面显示了一个典型的示例路径(图1)。图1:马尔可夫调制霍克斯过程的模拟观察路径对于上述样本路径,粗略的初始聚类是指在大约50、200、250、300、400、650和950的时间段存在状态变化,这些变化可以通过肉眼进行。然后,可以使用最大似然估计器,使用该初始分配来估计参数。转移矩阵被认为是已知的。使用optim命令中的内置Nelder–Mead方法对可能性进行优化。根据这些估计,可以应用过滤器来确定隐藏状态,从而重新校准和重复。

15
mingdashike22 在职认证  发表于 2022-5-5 05:48:18
参数估计的最初几次迭代如下所示。迭代αβγ1 7.35 20.23 0.813 8.6×10-081.34 0.2072 7.54 19.85 0.869 0.0032 1.485 0.1783 7.64 19.59 0.891 0.0050 1.538 0.1644 7.60 19.45 0.893 0.0064 1.534 0.169这些估计值有一些误差,但是下面给出了使用这些最终参数的过滤和平滑路径(图2),以及用于比较的真实(未知)状态。从这些路径中,我们可以看到滤波器在这些噪声参数值下具有良好的性能。我们注意到有一些状态变化(在t=700和t=800之间)是平滑器无法检测到的。这并不奇怪,因为这些变化只是一个短暂的持续时间,所以越平稳的人就越容易确定跳跃率的任何明显变化更有可能是由于随机变化。0 200 400 600 800 10000.0 0.4 0.8时间过滤状态0 200 400 600 800 10000.0 0.4 0.8时间平滑状态0 200 400 600 800 10000.0 0 0.4 0.8时间真实状态图2:图1中观察路径的过滤、平滑和真实隐藏状态(尤其是Xt=e的概率)。我们发现,对于这些参数值,过滤器在检测从状态2到状态1的变化时表现良好(变化非常剧烈),但在检测从状态1到状态2的变化时效果较差。图3显示了每个ei的λ(ei,t,Y(·))值。当nx=e时(图中的情况),每个状态下的电位率差异非常明显。跳跃的低基本速率意味着λ(e,t,Y(·))通常较低,偶尔出现大的尖峰。相反,当X=e时,跳跃的速度要稳定得多。因此λ(e,t,Y(·))和λ(e,t,Y(·))相对接近,并且λ(e,t,Y(·))的挥发性比nx=e时小。

16
何人来此 在职认证  发表于 2022-5-5 05:48:21
由于在确定滤波器时,速率的相对差异非常重要,因此我们发现,从状态2到状态1的真实状态变化会导致λ的可能值变得更加明显,因此滤波器会很快检测到这种变化。图3:timest在图1中观察路径的每个状态下的速率∈ [150, 300]. 函数λ(e,t,Y(·))对应于X为1时的速率,以蓝色显示,而λ(e,t,Y(·))为绿色,λ(Xt,t,Y(·))为黑色。6现实世界的应用我们现在概述这些方法对现实世界数据的可能应用。考虑到为现实世界建立良好模型的复杂性,本节应被视为这些方法实用性的经验支持,而不是建模的实际处方。特别是,我们将使用现实但特别的参数选择,以证明过滤器的有效性。我们将在上午9:30后给出时间,单位为“t=秒”。2010年5月6日,市场经历了众所周知的“泡沫崩盘”,道琼斯指数在5分钟内下跌600点(5-6%),然后迅速恢复。其中一个主要因素是在芝加哥商品交易所Globex平台上的E-mini S&P期货合约上进行交易。关于这一事件的报告[20]详细描述了市场行为,进一步的研究可以在[16]中找到。在一天的波动交易之后,一名基本面交易员在下午2:32(t=18120)对电子迷你合约发出了一份慷慨的卖出指令,该指令在20分钟内执行,不考虑价格或时间。

17
能者818 在职认证  发表于 2022-5-5 05:48:24
这种卖出指令很可能主要被高频交易员、期货市场的基本面买家和跨市场套利者(尤其是通过与标准普尔500指数中的基本面证券进行配对交易)吸收。随着交易员调整仓位,在下午2:41至2:44的三分钟内(t=18660至18840),E-mini和SPY的价格因综合抛售压力下降了3%。今年秋天产生了一个烫手山芋效应,导致进一步下跌SPDR S&P500 ETF(SPY)是一只交易所交易基金,复制了在纽约证券交易所交易的S&P500。直到下午2:45:28(t=18928),迷你合约暂停五秒钟的交易。从下午2点41分到交易暂停,E-mini的价格下跌了5%,而间谍的价格下跌了6%。这些合约随后以波动的方式恢复,直到下午3点左右(t=19800),价格稳定在接近原始水平。这一事件导致标准普尔500指数波动指数(VIX)上涨31.7%。我们将考虑纽约-泛欧交易所TAQ数据作为间谍合同。我们将尝试使用我们的过滤器,仅使用SPY上交易的频率,自动识别金融崩溃。我们将考虑的数据源只包括带有时间戳的间谍交易,时间仅为1秒精度。我们将把注意力集中在坠机当天,以及相关数据上(而不是引用)。我们将考虑交易数量,而不是交易量,因为这将更容易显示高频交易者的自我激励行为。我们在图4中绘制了当天的交易数据(价格和交易数量)。Kirilenko等人[16]将14:32–15:08(t=18120到20280)这段时间确定为坠机时间,如图4中的红色所示,图5给出了这段时间的更高分辨率图。

18
mingdashike22 在职认证  发表于 2022-5-5 05:48:28
从记录的交易价格中,我们可以清楚地看到崩盘的时期,以及今天下午交易量的增加。我们还可以看到,数据似乎包含明显的记录错误,尤其是在危机期间和之后,一些交易的记录价格与大部分市场价格相差甚远(或可能在错误的时间)。这在高频数据[5,14]中很常见,但由于我们的方法只使用交易数量,因此可以合理地避免这些错误,并且我们不进行进一步的数据清理。图4:2010年3月6日纽约-泛欧交易所间谍交易(9:30–16:00)、记录价格(蓝色)和交易数量(黑色)。14:32–15:08期间的交易以红色显示。图5:2010年3月6日纽约-泛欧交易所间谍交易(14:32–15:08),记录价格(蓝色)和交易数量(黑色)。我们将把市场建模为两种状态之一,一种是正常状态X=e,另一种与高交易期X=e有关,我们希望这将反映崩溃。对于粗略的近似值,我们将使用13:43:20到16:00的时间段作为崩盘影响的时间段,而09:30到13:43:20的时间段将用于校准通常的交易条件。(这段时间是上午9:30后的15000秒。)由于自激过程的朴素EMalgorithm对模型偏差非常敏感,因此我们将使用单通道对该分组进行校准,而不是应用EM算法。与泊松分布相比,每秒的交易数量似乎明显过度分散,达到了无法通过在1秒时间尺度上使用自激模型(这是我们模型的最小分辨率)进行校正的程度,这一事实突显了这一点。

19
可人4 在职认证  发表于 2022-5-5 05:48:32
因此,作为临时修正,我们还将简单地将每秒的交易数除以25,因为这将产生一个工作模型。这个重新缩放的过程我们称为Y。我们假设一个马尔可夫调制的霍克斯过程,其类型更为复杂,带有一个额外的多项式项,这使得跳跃的效果更加灵活。也就是说,我们认为Y也近似于一个带速率的纯跳跃过程hα,Xti+hβ,XtiZ[0,t[e]-hγ,Xti(t-s) 戴斯hζ,Xti。在1秒尺度上离散积分,并使用初始分组,我们得到最大似然估计状态αβγζX=e1。0014241 1.0416288 0.9996515 0.8987939X=e0。5222101 1.7255265 0.5095281 0.6821643底层马尔可夫链的速率矩阵A可以作为我们模型的调整参数。采取一种形式=-1 11 -1.,我们发现 = 10-7产生良好的表现,每115天对应一次自我激励事件。这些参数的选择显然是临时的,是为了证明过滤器的潜在性能。图6和图7显示了过滤和平滑的结果。图6:2010年5月6日间谍交易和价格,以及经过过滤和平滑的州估计。可以看出,在碰撞发生的当天,除碰撞本身外,平滑度越高,检测不到任何状态变化。在过滤器表明可能发生状态变化的地方,观察到了一些异常点,但图7:间谍交易和价格2010年5月6日14:32–15:08,以及经过过滤和平滑的状态估计。所有问题都会在接下来的几秒钟内迅速解决(除了一天结束时的问题)。更仔细地考虑图7,我们可以看到,正如预期的那样,过滤器在更平稳的情况下检测到崩溃,但仍然在价格急剧下跌之前。在价格恢复的中途,过滤器恢复到正常状态。

20
大多数88 在职认证  发表于 2022-5-5 05:48:35
从价格下跌开始,越平稳的人成功地检测到崩溃,并恢复到价格复苏开始时的正常状态。回想一下,这种计算是在不观察价格的情况下进行的,因为过滤和平滑完全基于交易数量。7结论我们发现,这些过滤方法具有检测异常交易行为的巨大潜力,允许在正常和异常状态下存在自激。这种方法的一个关键优势是,它在自激结构的选择上非常灵活,并且,由于过滤和平滑的方程以闭合形式可用,因此可以以非常高的速度实现。鉴于自动高频交易的增加,以及由此可能产生的潜在问题,这一点尤为重要。这项工作的未来发展将需要为贸易数据构建更现实、更灵活的模型。特别是,我们对过度分散的特别修正(交易数量除以25)并不令人满意,而开发多级自激模型,可以直接管理数据集的“尖峰”性质,将是更好的选择。可靠统计方法的发展也是一个标志,特别是考虑到THEM算法的使用和高频数据常见的误差。参考文献[1]E.Bacry、S.Delattre、M.Homann和J.F.Muzy。用相互激励的点过程模拟微观结构噪声。http://arxiv.org/pdf/1101.3422.pdf.[2] Luc Bauwens和Nikolaus Hautsch。使用点过程对金融高频数据进行建模。《金融时间序列手册》,第953-979页,2009年。[3] 彼得·J·博兰德和杰罗姆·T·康纳。用于高频金融数据价格估计的约束神经网络卡尔曼滤波器。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 04:27