楼主: kedemingshi
991 30

[量化金融] 基于时间聚类的日内金融市场状态检测 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-5-24 20:04:44
在菲南ci等人的领域,最初的应用集中于基于价格变化对股票进行聚类(Gi ad a和Marsili(2001),Hendricks等人(2015)),然而Marsili(2002)提出,该技术可用于对时间段进行聚类,以识别暂时的市场状态。根据所选股票市场的收盘价表现,将天数分组,展示了整个时间内市场活动的有意义分类(Marsili(2002))。我们提出,类似的应用程序可以应用于发现日内时间状态,基于多个可观察市场微观结构特征的逐层聚类时间段。一个实用的交易系统可以访问实时市场数据馈送,从中可以提取多个特征来描述evolvinglimit订单的各个方面。此外,在不同的时间尺度上检查时间集群配置可以提出系统行为的层次结构,从而深入了解外生和内生市场活动。这也可以帮助交易代理人为各种目标(如以最低成本收购股票或清算)制定最佳轨迹。特别是,对于被要求学习最优策略(状态映射)的代理而言,基于市场微观结构特征性能将时间周期分组到市场状态提供了一种新的方案来降低状态空间的维数并促进高效学习。在本文中,我们将关注不同时间尺度下系统行为的em-gent层次结构,并探索一种在线状态检测方案。

12
mingdashike22 在职认证  发表于 2022-5-24 20:04:47
在一个应用中,这导致了一个在不同尺度下的1-s tε转移概率矩阵系统,可以在线实时定义。这些可用于假设马尔可夫动力学且可利用状态持久性的最优规划方案。2017年2月24日5预印˙002˙压缩5。一种高速并行遗传算法,将等式10中规定的似然函数作为元启发式优化例程中的目标,在该例程中评估并连续改进candi-dat聚类配置,直到配置最好地解释了给定相关矩阵中的固有结构。Giada和Marsili(2001)使用模拟退火和det e rm i ni st i c最大化来逼近最大似然结构。虽然适合他们的研究,但这些技术本质上是计算密集型的,可能需要大量的时间才能收敛到大规模问题。此外,由于Giada和Marsili(2001)基于单一特征(价格收益)对对象(股票)进行了聚类,因此不清楚这种基于轨迹的方法是否适合本文考虑的多特征聚类问题。Hendricks et al.(2015)和Cieslakiewicz(2014)建议使用高速并行基因ti c al gor it h m(PG a),以老化Gr APHI cs处理单元(GPU)的流式多处理器(SMs),其中等式10用作一个函数,以找到最接近最大似然结构的集群。

13
能者818 在职认证  发表于 2022-5-24 20:04:50
他们使用NVIDIAComputer Unified Device Architecture(CUDA)开发环境实现了一个基于C的主从PGA,使用单程序多数据(SPMD)体系结构枚举GPU线程层次结构和popul at onmembers,以实现遗传算子的并行应用。考虑n个对象的群集配置问题。然后,给定构成人口的N个候选集群结构,S1={s11,…,s1n}S2={s21,…,s2n}。。。SN={sN1,…,sNn}将使用二维网格映射到GPU线程层次结构,如表1所示。CUDA线程块gridS1S2。SNobject1s11s21。sN1object2s12s22。sN2。。。。对象NS1NS2N。表1:人口到CUDA线程层次的映射PGA被应用于相对较小的问题,即发现18个对象的群集配置,但是与状态的e-ar t方法相比,PGA显示出快速的绝对计算时间,在所使用的GPU架构的限制范围内具有可伸缩性(Hendricks et al.(2015),Cieslakiewic z(2014))。我们将分析限制在一个月内的日内时间周期,但在5分钟的情况下,这仍然会产生多达2208个对象。表2显示了两个候选GPU的规格和能力,表3显示了每个时间尺度的PGA参数值和目标数量。在SPMD范式下,将扩展配置映射到GPU线程层次结构会导致在允许的对象数量和人口规模上出现上限。e.Hendricks et al。

14
大多数88 在职认证  发表于 2022-5-24 20:04:52
(2015)进一步认识到确保种群规模相对于目标数量足够大的重要性,以确保种群多样性在特定世代内收敛到最大似然结构的最佳近似值。Smaller6 2017年2月24日预印本˙002˙压缩人口通常会导致次优算法终止和结果不一致。对于60分钟、30分钟和15分钟的情况,英伟达Geforce GTX765m笔记本电脑GPU能够从数量巨大的群体中确定最佳集群配置。

15
大多数88 在职认证  发表于 2022-5-24 20:05:00
5分钟的案例需要更大容量的GPU,英伟达Gefor ce GTX Titan X提供了必要的额外SMs、CUDA内核和全局内存,以方便高效计算。图形处理单元(GPU)功能Nvidia Geforce GTX 765m Nvidia Geforce GTX Titan XCompute功能3.5 5 5.2CUDA内核768 3072内存2048MB 12228MB流式多处理器数量16 96Max线程/t hr read block 1024 1024线程块尺寸32 32Max线程块/多处理器16 32表2:图形处理单元规格和能力估计种群世代数失速变异交叉计算尺度周期(对象)大小世代概率概率时间(秒)*5分钟2208 4000 4000 1000 0.09 0.9 603(D)15分钟736 1000 4000 500 0.09 0.9 382(N)30分钟368 800 4000 500 0.09 0.9 215(N)60分钟184 600 4000 500 0.09 0.9 132(N)表3:并行遗传算法的参数值和计算时间* 20次独立运行的平均值;N表示GTX765m N Note book GPU,D表示GTX Titan X桌面GPU。我们注意到,表3中的代数和停滞代数高于通常为遗传算法指定的代数和停滞代数,因为这会促进对指定数据集的潜在过度拟合。回想一下,我们的应用程序是为了找到最能解释给定相关矩阵固有结构的候选聚类结构。因此,我们并不担心没有样本有效性,而是更愿意确定具有最高似然值的配置。较高的世代数和总世代数与变异算子一起促进收敛到更高的似然结构。

16
mingdashike22 在职认证  发表于 2022-5-24 20:05:04
表3中所示的平均计算时间并不繁重,这表明对于实际应用,隔夜甚至日间估计集群配置以捕捉近期动态是可行的。因此,建议的PGA提供了一种高效、可扩展的替代方案,用于找到最佳聚类配置的最佳近似值,支持在多个可观察特征上对对象进行聚类。6、用于在线状态检测的状态特征向量迄今为止描述的聚类过程可用作无监督算法,根据特征相似性将时间周期分组为状态,但这只能揭示事前的状态,不适合在线检测。在检查结果集群配置后,我们注意到,每个节点都有一个特定的时间段,与市场活动相关联的edsignature。此外,如果两个时间段出现在同一个集群中,考虑到方程式2中假设的数据生成模型,我们推测是市场活动特征签名的相对相似性导致了它们被分配到同一集群。利用这一思想,考虑到将时间段划分为市场状态的集群配置,可以提取一个状态特征向量(SS V),该向量总结了每个状态的股票和时间段的市场活动特征。然后,如果面临一个新的候选特征向量7 2017年2月24日预印本˙002˙压缩(FV),可以通过使用预先确定的SSV集合中的最接近匹配来确定市场状态分配。FV很容易从流式数据馈送在线计算,状态分配可以使用简单的欧几里德距离计算来实现。

17
nandehutu2022 在职认证  发表于 2022-5-24 20:05:07
为了使这些想法具体化,请考虑图1中的示例。状态1状态2新特征向量->状态1检测时间簇/状态为每个状态计算状态签名向量新特征向量到达计算新特征向量和现有状态签名向量之间的距离根据最接近的匹配图1指定状态:基于识别状态签名向量的在线状态分配示意图。在这里,我们根据确定的状态计算两个SSV,并将其作为向市场状态分配新FV的基础。这是基于一个简单的欧几里德距离度量,argminp | | F V- SSVp | |,其中p是已识别状态的指数。在本文中,我们使用了四个特征来描述日内规模的市场活动。其中包括:交易价格、交易量、价差和报价量不平衡。在第一部分中,我们考虑了每个特征的相对变化。例如,基于一组5分钟尺度的特征度量F5minate,我们将计算△f5mint=f5mint- F5薄荷糖-1F5点-1对于所有f5mint∈ F5分钟。对于初始时间聚类检测阶段,计算每个股票的“特征收益”,并串联b e以计算时间段相关矩阵x。为了从重要状态提取SSV,我们计算每个IOD和股票的SSV成员的平均特征回报。例如,考虑15分钟周期集群的情况。如果一个州(clus t er)由两个时段(09:15-09:30和15:15-15:30)组成,那么我们将在每个时段(即。

18
大多数88 在职认证  发表于 2022-5-24 20:05:10
两个4元素向量),然后对这两个向量进行平均,得到一个4元素向量,它将是该状态的代表SSV。虽然这会导致信息丢失,但我们推测,特征收益的平均值大致反映了市场行为的状态。图4、6、8和10显示了每个time-s-cal配置的SSV。按照t h i s方法,在线环境中计算的FV将构成相同的业绩回报平均值,然后再与适当的SSV匹配。我们注意到,这仅仅是提取SSV的一个候选方案,有助于状态分配的在线匹配,但在未来的工作中,将探索保留状态特定信息的下一步OFSSV行动i的替代方案。所选特征2017年2月24日预印本˙002˙compresseddo并不代表日内市场活动的一组详尽的可能解释因素,而是根据stre ami n g Level-1 market data feeds JSE(2015)在线构建的相对容易程度来选择的。在未来的工作中可以考虑其他功能。7、状态的尺度不变特征可以进一步分析检测到的时间聚类配置,以确定是否有任何特征表现出尺度不变行为。特别是,通过对第8.4节所示集群配置的目视检查,我们推测出c lu st e r大小可能存在幂律。许多物理和人造系统表现出遵循幂律函数形式的特征,其独特的数学特性有时会带来令人惊讶的物理见解(Gabai xet al.(2003),Clauset al.(2009))。许多作者研究了金融市场中不同时间尺度下信息和预测的性质(参见Dacorogna等人。

19
能者818 在职认证  发表于 2022-5-24 20:05:13
(1996),Zhang等人(2005),Emmert Streib和Dehmer(2010)为例)。在我们的应用中,在不同的时间尺度上,最佳幂律函数的不同临界指数的存在可能表明了不同的普遍性类别,这些类别表征了每个阶段的系统活动。事实上,Mastromatteo和Marsili(2011)讨论了这样一个概念,即对于复杂的自适应系统,当系统接近临界状态时,只能收集可区分的模型。因此,如果金融市场真的是一个复杂的适应系统,那么从每个市场的动态中得出的可测量的q u反比应该会产生一个真正重要的幂律st。尽管很难量化这些规模特定行为或普遍性类别的确切性质,它们的明显存在表明,投资和交易决策将受益于时间尺度特定的状态空间信息。这将提高日内政策的效率,旨在通过系统找到最佳轨迹。鉴于很难确定统计上显著的幂函数与经验数量之比Bauke(2007),我们采用了Clauset al.(2009)提供的最大似然拟合程序。其函数的输出包括拟用幂律函数的标度参数、拟用模型对数据优度的Kolmogorov-Smirnov检验,如果尾部分布遵循幂律和幂律分布下数据的对数可能性,则指数的下界。我们注意到,检测到的时间集群配置会导致一组同质市场状态,尽管尚不清楚哪些是显著的,即可能持续的,或仅仅是突变的。如果使用第6节所述的在线算法,使用所有识别的状态可能会导致虚假的状态分配。

20
能者818 在职认证  发表于 2022-5-24 20:05:16
这导致在提取SSV之前,需要一些重要州的选择标准。可区分的标准包括使用簇内连通性(cs)或簇大小以及某种形式的刷新过程,然而这些启发式方法本身是主观的。聚类大小的幂律为状态选择提供了一种候选目标方法。在系统接近临界状态的假设下,我们找到一个稳定的参数校准,选择最符合幂律函数形式的状态可能有助于隔离那些在该尺度下最能捕获系统行为的状态,即过滤稳定状态,ois中的持续状态。这为选择重要状态提供了一种客观机制,减少了构成在线状态检测算法基础的SVS集。8。数据和结果8。1、数据说明本研究的数据包括2012年11月1日至2012年11月30日约翰内斯堡证券交易所(JSE)42只股票的市盈率交易和账面最高报价。该数据来源于汤森路透Tick History(TRTH)数据库。在计算所需特征(交易价格、交易量、价差和交易量不平衡的变化)之前,根据所考虑的时间段(5分钟、15分钟、30分钟和60分钟)汇总原始数据。2017年2月9日预印˙002˙压缩所考虑的42支股票代表FTSE/JSE Top40 headlineindex的主要成分,该指数包含42只按市值计算的大型股票,位于美联储委员会的富时/JSEAll股票指数中。聚类分析的关注对象是时间段。表4提供了所需数据返回矩阵的一个示例,从中可以计算时间周期相似性的对应矩阵。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-20 21:43