楼主: 能者818
770 29

[量化金融] 基于时间聚类的日内金融市场状态检测 [推广有奖]

11
能者818 在职认证  发表于 2022-5-12 02:48:09
在一个应用中,这导致了一个不同尺度的1-s tε转移概率矩阵系统,可以在线实时定义。这些可用于最优规划方案,其中假设马尔可夫动力学,并可利用状态持久性。2017年2月24日预印本˙002˙压缩5。一种高速并行Genet ic算法实现10秒方程式中指定的似然函数,作为元启发式优化程序的目标,在该程序中评估并连续改进candi-dat聚类配置,直到配置最好地解释给定相关矩阵中的固有结构。Giada和Marsili(2001)使用模拟退火和det e rm i ni st i c最大化来逼近最大似然结构。虽然适合他们的研究,但这些技术本质上是计算密集型的,可能需要大量时间才能收敛到大规模问题。此外,由于Giada和Marsili(2001)基于单一特征(价格收益)对对象(股票)进行了聚类,目前尚不清楚这种基于轨迹的方法是否适用于本文考虑的多特征聚类问题。Hendricks等人(2015年)和Cieslakiewicz(2014年)提出使用高速并行基因ti c al gor it h m(PG a),不断老化Gr APHI cs处理单元(GPU)的流式多处理器(SMs),其中Equat ion10被用作一个函数,以找到最接近最大似然结构的集群结构。

12
nandehutu2022 在职认证  发表于 2022-5-12 02:48:13
他们使用NvidiaComputer Unified Device Architecture(CUDA)开发环境实现了一个基于C的主从PGA,使用单程序多数据(SPMD)体系结构枚举GPU线程层次结构,并使用popul at onmembers实现遗传算子的并行应用。考虑n个对象的集群配置问题。然后,给定构成人口的N个候选集群结构,S1={s11,…,s1n}S2={s21,…,s2n}。。。SN={sN1,…,sNn}将使用二维网格映射到GPU线程层次结构,如表1所示。CUDA线程块Grids12s。SNobject1s11s21。sN1object2s12s22。sN2。。。。对象NS1NS2N。表1:人口到CUDA线程层次的映射PGA被应用于相对较小的问题,即发现18个对象的群集配置,但是与现有的e-ar t方法相比,PGA显示出快速的绝对计算时间,在所使用的GPU架构的约束范围内具有可伸缩性(Hendricks et al.(2015),Cieslakiewic z(2014))。我们的分析仅限于一个月内的日内时间周期,但在5分钟的情况下,这仍然会产生多达2208个对象。表2显示了两个候选GPU的规格和能力,表3显示了所调查的每个时间尺度的PGA参数值和目标数量。在SPMD范式下,将扩展配置映射到GPU线程层次结构会导致在允许的对象数量和人口规模上出现上限。e.Hendricks等人。

13
可人4 在职认证  发表于 2022-5-12 02:48:16
(2015)进一步认识到确保种群规模相对于对象数量足够大的重要性,以确保足够的种群多样性,以便在有限的世代内收敛到最大似然结构的最佳近似值。Smaller6 2017年2月24日预印本˙002˙压缩的总体通常会导致次优算法终止和结果不一致。对于60分钟、30分钟和15分钟的情况,英伟达Geforce GTX765m笔记本电脑GPU能够从数量巨大的群体中确定最佳集群配置。

14
何人来此 在职认证  发表于 2022-5-12 02:48:19
5分钟的案例需要更大容量的GPU,英伟达Gefor ce GTX Titan X提供了必要的额外SMs、CUDA内核和全局内存,以方便高效计算。图形处理单元(GPU)具有Nvidia Geforce GTX 765m Nvidia Geforce GTX Titan X计算能力3.5 5 5.2CUDA内核768 3072内存2048MB 12228MB多处理器16 96Max线程数/t hr ead块1024 1024线程块尺寸32 32Max线程块/多处理器16 32表2:图形处理单元规格和能力估计总体世代数失速变异交叉计算尺度周期(对象)大小世代概率时间(秒)*5分钟2208 4000 000 0.09 0.9 603(D)15分钟736 1000 4000 500 0.09 0.9 382(N)30分钟368 800 4000 500 0.09 0.9 215(N)60分钟184 600 4000 500 0.09 0.9 132(N)表3:并行遗传算法的参数值和计算时间* 平均20次独立跑步;N表示GTX765m N Note book GPU,D表示GTX Titan X桌面GPU。我们注意到,表3中的代数和失速代数高于遗传算法通常规定的代数和失速代数,因为这会促进对指定数据集的潜在过度拟合。回想一下,我们的应用程序是找到候选聚类结构,它最好地解释了给定相关矩阵中固有的结构。因此,我们并不担心样本的有效性,而是更愿意确定具有最高似然值的配置。较高的世代数和总世代数,加上变异算子,有助于收敛到更高的似然结构。

15
kedemingshi 在职认证  发表于 2022-5-12 02:48:24
表3中所示的平均计算时间并不繁重,这表明对于实际应用,隔夜或甚至日间估计集群配置以捕捉近期动态是可行的。因此,所提出的PGA提供了一种高效、可扩展的替代方案,用于找到最佳聚类配置的最佳方法,支持在多个可观察特征上对对象进行聚类。6.用于在线状态检测的状态特征向量迄今为止描述的聚类过程可以用作无监督算法,根据特征相似性将时间周期分组为状态,但是这只能揭示先前的时间状态,不适合在线检测。在检查结果集群配置后,我们注意到每个节点都会在特定的时间段内发生变化,并伴随着市场活动的关联特征。此外,如果两个时间段出现在同一个集群中,考虑到等式2中假设的数据生成模型,我们推测,正是市场活动特征签名的相对相似性导致了它们被分配到同一集群。利用这一思想,考虑到时间周期到市场状态的集群配置,可以提取一个状态特征向量(SS V),它总结了每个状态的股票和时间周期的市场活动特征。然后,如果一个人面临新的候选特征向量2017年2月24日7预印本˙002˙压缩(FV),可以通过使用预先确定的SSV计算出的一组最接近的匹配来确定市场状态分配。FV很容易从流式数据源在线计算,状态分配可以通过简单的欧几里德距离计算实现。

16
何人来此 在职认证  发表于 2022-5-12 02:48:27
为了使这些想法具体化,请考虑图1中的示例。状态1状态2新特征向量->状态1检测时间簇/状态为每个状态计算状态特征向量新特征向量到达计算新特征向量和现有状态特征向量之间的距离基于最接近的匹配图1:基于已识别状态签名向量的在线状态分配说明。在这里,我们根据确定的状态计算两个SSV,并将其用作将新FV分配给市场状态的基础。这是基于一个简单的欧几里德距离度量,argminp | | F V- SSVp | |,其中p是已识别状态的索引。在本文中,我们使用了四个特征来描述日内规模的市场活动。这些因素包括:交易价格、交易量、价差和报价量失衡。在第一部分中,我们考虑了这些特征的相对变化。例如,基于一组特征度量F5minate 5分钟刻度,我们将计算△f5mint=f5mint- F5薄荷糖-1F5点-1对于所有人∈ 五分钟。对于初始时间聚类检测阶段,计算每个股票的“特征收益”,并将其连接起来,计算时间段相关矩阵x。为了从重要州提取SSV,我们计算每个IOD和股票的SSV成员平均特征收益。例如,考虑15分钟周期集群的情况。如果一个州(clus t er)由两个时段(09:15-09:30和15:15-15:30)组成,那么我们将在每个时段(即。

17
mingdashike22 在职认证  发表于 2022-5-12 02:48:31
两个4元素向量),然后对这两个向量进行平均,得到一个4元素向量,这将是该状态的代表SSV。虽然这会导致信息丢失,但我们推测,特征收益的平均值大致反映了市场行为的状态。图4、图6、图8和图10显示了每个time-s cal配置的SSV。按照TH i s方法,在线环境中计算的FV将构成相同的业绩回报平均值,然后与适当的SSV匹配。我们注意到,这只是提取SSV的一个候选方案,这有助于在线匹配状态分配,但在未来的工作中,将探索保存状态特定信息的OFSSV下一法案的替代方案。所选功能2017年2月24日预印本˙002˙compresseddo并不代表日内市场活动的一套详尽的可能解释因素,而是根据stre ami n g Level-1 market data feeds JSE(2015)中在线构建的相对容易程度来选择的。在未来的工作中可以考虑其他功能。7.状态的尺度不变特征可以进一步分析检测到的时间集群配置,以确定是否有任何特征表现出尺度不变行为。特别是,通过对第8.4节所示集群配置的目视检查,我们推测了c lu st e r尺寸的可能幂律。许多物理和人造系统表现出遵循幂律函数形式的特征,其独特的数学特性有时会带来令人惊讶的物理见解(Gabai xet al.(2003),Clauset al.(2009))。许多作者研究了金融市场中不同时间尺度下信息和预测的性质(见Dacorogna等人。

18
mingdashike22 在职认证  发表于 2022-5-12 02:48:35
(1996),张等人(2005),埃默特·斯特里布和德默(2010)为例。在我们的应用中,在不同的时间尺度上,最佳幂律函数的不同临界指数的存在可能表明了不同的普适性类别,这些类别表征了每个阶段的系统活动。事实上,Mastromatteo和Marsili(2011)讨论了这样一个概念,即对于复杂的自适应系统,当系统接近临界状态时,只能收集可区分的模型。因此,如果金融市场真的是一个复杂的适应系统,那么从每个市场的动态中可测量的q u反比应该会产生一个实际意义上的幂律。尽管很难量化这些规模特定行为或普遍性类别的确切性质,它们的明显存在表明,投资和交易决策将受益于时间尺度特定的状态空间信息。这将提高日内政策的效率,这些政策旨在通过系统找到最佳轨迹。鉴于难以识别统计上显著的幂函数与经验数量之比Bauke(2007),我们采用了Clauset al.(2009)提供的最大似然拟合程序。其函数的输出包括拟用幂律函数的标度参数、拟用模型对数据优度的科尔莫戈罗夫-斯米尔诺夫检验,如果尾部分布遵循幂律和幂律下数据的对数可能性,则指数的下界。我们注意到,检测到的时间集群配置会导致一组同质市场状态,尽管尚不清楚哪些是显著的,即可能持续的,或仅仅转变的。如果使用第6节中描述的在线算法,使用所有识别的状态可能会导致虚假的状态分配。

19
何人来此 在职认证  发表于 2022-5-12 02:48:38
因此,在提取SSV之前,需要为重要州制定一些选择标准。可区分的标准包括使用簇内连通性(cs)或簇大小以及某种形式的刷新过程,然而这些启发式方法本身是主观的。聚类大小的幂律为状态选择提供了一种候选的客观方法。在系统接近临界状态的假设下,我们找到了一个稳定的参数校准,选择最符合幂律函数形式的状态可能有助于隔离那些最能捕获该规模下系统行为的状态,即过滤稳定状态,这为选择重要状态提供了一种客观机制,减少了构成在线状态检测算法基础的SSV集。8。数据和结果8。1.数据说明本研究的数据包括2012年11月1日至2012年11月30日约翰内斯堡证券交易所(JSE)42只股票的指数级交易和账面最高报价。该数据来源于汤森路透蜱虫历史(TRTH)数据库。在计算所需特征(交易价格、交易量、价差和交易量失衡的变化)之前,根据考虑的时间(5分钟、15分钟、30分钟和60分钟)汇总原始数据。2017年2月24日9日预印˙002˙压缩考虑的42支股票代表FTSE/JSE Top40 headlineindex的主要成分,它包含了按市值计算的42只大型股票,位于美联储委员会FTSE/JSEAll股票指数中。聚类分析的目标是时间段。表4提供了所需数据返回矩阵的示例,根据该矩阵计算时间周期相似性的对应矩阵。

20
何人来此 在职认证  发表于 2022-5-12 02:48:41
这是clust e RIN g算法所需的唯一输入。功能时间2012年11月01日09:00 2012年11月01日09:15 2012年11月01日09:30。。。2012年11月30日16:30 2012年11月30日16:45交易价格AGL交易价格回报0.35 0.60 0.85。。。0.39 0.22AMS交易价格回报0.94 0.71 0.73。。。0.63 0.78SBK交易价格回报0.70 0.38 0.58。。。0.38 0.81.....................WHL交易价格返回0.90 0.49 0.05。。。0.65 0.53SpreadAGL利差回报0.64 0.49 0.68。。。0.05 0.95AMS利差收益0.33 0.09 0.76。。。0.44 0.97SBK利差收益0.09 0.73 0.54。。。0.80 0.48.....................WHL利差回报率0.41 0.61 0.11。0.40 0.69交易量交易量收益0.61 0.59 0.96。。。0.65 0.50AMS交易量回报0.16 0.09 0.47。。。0.86 0.57SBK交易量回报0.98 0.05 0.67。。。0.72 0.12.....................WHL交易量回报率0.38 0.49 0.36。。。0.27 0.81容积平衡AGL容积imb返回0.01 0.45 0.78。。。0.69 0.77AMS卷imb返回0.54 0.17 0.87。。。0.47 0.44SBK容量imb返回0.20 0.42 0.91。。。0.88 0.58.....................WHL卷imb返回0.20 0.09 0.38。。。0.90 0.12表4:数据返回矩阵图,作为15分钟周期相关性估计的输入8。2.工作流程图2说明了用于绩效时间聚类分析的流程工作流程和工具。a处的TRTH tick d存储在MongoDB noSQL数据库中,并带有优化的查询索引,以便高效检索数据。编写了一个定制的应用程序编程接口(API),将数据从MongoDB传输到我们的主要科学计算平台MATLAB。该数据用于在MATLAB中实例化高频时间序列(HFTS)对象,该对象允许对大规模不规则间隔的滴答数据进行高效合并、重采样和聚合。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-29 14:43