楼主: 大多数88
873 32

[量化金融] 凝聚似然聚类 [推广有奖]

11
大多数88 在职认证  发表于 2022-6-24 13:24:19
否则,将从列表中删除对象,并重新启动进程。(三) 3跟踪器更新:如果存在积极的Lc,为新集群创建一个新标签,其内容是我们合并的两个集群的联合。(三) 4相关矩阵更新:CorrelationValue是合并的两个集群的相关性之和。自相关性是簇内相关性的总和。(三) 5迭代收敛:该过程一直重复到Lcis非负。表III:时间序列聚类的聚集似然聚类算法的主要程序包括合并聚类,以找到最大的似然增长(见附录(1)中的伪代码)IV.合成数据a。噪声和不相关数据首先,我们开始在随机不相关数据“白噪声”上测试我们的算法。我们从具有3个自由度的student-t分布中生成不相关数据,数据集大小和长度不同。在图(1c)中,我们可以观察到该算法恢复的聚类大小的概率分布。尽管clustersby design不存在,但Uncorrelateddata产生集群。此外,在图(1a)中,我们显示了随着数据集大小的增加,“噪声”簇的数量:簇的数量与数据集大小之间的线性关系微不足道,然而,当簇的数量用N归一化时,我们观察到它实际上比N增长得慢。图(1b)中的曲线可以作为我们方法解的上限。当样本协方差估计固有的估计噪声可以解释在数据中实际上不存在聚类时识别聚类的问题。基本事实是单位矩阵,但由于有限的大小影响,估计的对角线值非零。

12
kedemingshi 在职认证  发表于 2022-6-24 13:24:22
聚类大小在半对数图上呈厚尾分布,分布模式为5。其影响是多方面的:大小为5及以下的小簇在统计上与噪声无法区分,而较大的簇则不太可能是虚假的。此外,真正的不相关数据应该是单态的解,但这并不是绝对的情况,因为如前所述,“噪声”的数量增长速度不如N快。B、 聚类综合Student-t数据复杂系统的特点是其在时间和空间上的多尺度动力学。金融市场就是一个很好的例子,在这个例子中,股票价格被记录并在毫秒到日价格(如果不是周、月和年的话)的时间尺度上进行聚合。如果不是不兼容的话,在不同的时间尺度上运行的数据生成过程可能会有很大的不同。与此同时,市场本质上是非平稳的,这意味着过去很久的数据变得不真实,这对大多数投资模型的表现有着明显的影响。在这里,我们考虑相关的合成数据,并使用等式(B1)中的单因素模型生成500、1500和3000个变量长度为60、250和500的时间序列的Student-t分布式数据集(见附录(B))。高斯混合在机器学习文献中很容易用于测试数据聚类。这里我们只使用student-t分布,因为已知股票收益分布是厚尾分布[10,13]。

13
能者818 在职认证  发表于 2022-6-24 13:24:25
这个程式化的事实是通过模拟student-t分布所捕捉到的;我们希望调查这可能对我们的算法产生的潜在影响。(a) 作为数据集大小函数的群集解决方案的平均群集数。(b) 与数据集大小相关的规范化集群数,作为数据集大小的函数。(c) 不相关无簇数据集簇大小分布的半对数图。图1:不相关无聚类时间序列数据聚类的描述性分析。(a) 模拟:1000天内500个模拟资产的群集衍生相关时间序列累积回报。(b) 地面真值:估计的真相关矩阵MST(c):估计的相关矩阵MSTFIG。2: 使用由表(2)创建的合成相关时间序列数据。在子批次a.)中,500标准化时间序列累积每日收益按聚类着色。b.)和c.)中分别给出了真实聚类结构的最小生成树,以及从合成数据中估计的相关矩阵。这些颜色代表数据中存在的10个簇。大小为500、1500和3000的数据集似乎是任意选择的。然而,标准普尔500指数的规模大约为500,罗素家族的指数:罗素1000、2000和3000,占美国股市总市值的90%。存在数千只股票的大投资组合,必须对其估计相当大的相关矩阵。

14
何人来此 在职认证  发表于 2022-6-24 13:24:28
相关矩阵很容易直接用于马科维茨的投资组合优化[19,49],或通过使用分层风险平价等方法进行聚类间接使用[35]。任意选择簇内耦合强度gs来说明两种极限情况:0.05和1,ALC HDBSCANN=500 N=1500 N=3000 N=500 N=1500 N=3000 GS=0.05D=20 0.04 0.06 0.03 0.04 0.00D=60 0.07 0.07 0.03 0.03 0.02D=250 0.19 0.14 0.14 0.09 0.08 0.09gs=0.1D=20 0.09 0.08 0.11 0.04 0.01 0.04D=60 0.19 0.15 0.14 0.12 0.07 0.03D=250 0.47 0.32 0.23 0.18 0.12gs=0.3D=20 0.27 0.24 0.24 0.22 0.17 0.12D=60 0.58 0.49 0.41 0.40 0.31 0.20D=250 0.90 0.84 0.760.66 0.60 0.35gs=1D=20 0.61 0.49 0.44 0.56 0.51 0.48D=60 0.90 0.87 0.81 0.83 0.80 0.73D=250 0.99 0.98 0.96 0.98 0.94 0.92表四:包含10个相关时间序列集群的数据集的ALC和HDBSCAN集群解决方案的调整后兰德指数(ARI)。从左到右,时间序列的大小从500到3000不等,而从顶部到底部,时间序列的长度从20到250不等。平均簇内相关性gs也从0.05变为1。两种中间情况:0.1和0.3。这里的值0.3近似于股票市场的平均相关性[34]。这不是平均的集群内相关性,这就是gsis;然而,它给出了在给定真实股票市场数据的情况下,该算法将如何执行的感觉。极限值0.05和1用于显示在处理低束缚或弱束缚簇时性能如何下降(gs=0.05),而不是完全相关簇(gs=1)。假设两个时间序列属于不同的聚类,它们的成对相关性应为0。然而,情况并非总是如此,因为存在噪声,较低的GSR将使集群接近噪声。

15
大多数88 在职认证  发表于 2022-6-24 13:24:32
我们在表IV中实证证实,这将恶化算法性能。在这里,对每个大小和长度对进行了100次模拟,并对地面真实值和模型输出之间的调整后兰德指数(ARI)[37]进行了平均(见表(IV))。时间序列长度的选择考虑了噪音的影响。短时间序列预计会导致更高的噪声和虚假相关性。虽然有限的影响仍然存在,但更长的时间序列可以改善这种情况。为此,我们选择长度:20、60和250。这些是真实世界数据中1个月、3个月和12个月的交易日数的近似值。这些长度足以对每日价格进行数据聚类。它还表明,在高频区域内,测量值丰富,相关矩阵更容易估计,算法应相应执行。然而,在高频域中,人们更直接关注的是样本估计相关性的适用性,这些相关性不涉及离散化的影响【33】。五、 噪波:重新采样群集和Bootstrapin秒。(IV B)我们表明,相关矩阵的估计会产生统计噪声,这会显著影响聚类算法的性能。在此,我们提供了一种使用自举调节噪声影响的方法。直觉来自算法性能与信噪比Q=DN之间的关系。

16
kedemingshi 在职认证  发表于 2022-6-24 13:24:35
用随机矩阵理论对相关矩阵的分析表明,它们可以在N→ ∞,D→ ∞ 和Q≥ 1并进行维护。尽管存在着生活在所谓“大数据”时代的错觉,但在金融领域,更具体地说,在金融市场的背景下,可观测数据仍然是非平稳的,并且会受到极端事件、冲击和制度变化的影响,所有这些都是在有战略目的的代理人的存在下进行的。数据很快就会过时。这意味着,用于估计相关矩阵cijc的时间序列长度可以实际缩短或自适应估计,以更好地捕捉更相关、时间或制度相关的近期动态,但代价是估计噪声增加。如表(IV)所示,这可能会对集群解决方案产生严重影响。A、 过滤相关矩阵在这里,我们考虑股票数量sn很大,但实现数量D很小,导致Q≤ 1违反质量条件。Wethen建议通过对n个股票中的n个股票进行抽样来构建一个定义的过滤聚类成员矩阵,从而满足n个抽样子问题的质量条件:q=Dn≥ Q、 表(V)明确了实现此功能的例程。这引入了过滤相关矩阵cij的思想,其灵感来自原始Potts“自旋-自旋相关函数”【44】。考虑从集合{1,…,n}随机抽取n个对象。首先,从每个样本中,我们计算了绘制在一起的对象的空中频率,fij:fij=Xm∈MXi<jδij。(8) 其次,我们找到了对象开始聚集在一起的成对频率,dij:dij=Xm∈MXi<jδsisj。(9) 然后,可以将这些组合成一对聚集对象的normalisedpropability:pij:pij=dijfij。(10) 这是对对象聚集在一起的概率的度量。

17
mingdashike22 在职认证  发表于 2022-6-24 13:24:39
然后使用阈值ω:pωij=(1,pij)将其映射到[0,1]上的OrdinalDependency函数- ω>0,0,pij- ω ≤ 0。(11)最后一步类似于Blatt等人提出的原始超顺磁聚类(SPC)算法中使用的阈值方法。我们注意到,可以使用任何激活函数,这让人想起后勤回归。最初的SPC使用模拟退火,通过重复的成对连锁验证过程估计出一个类似于pij的量(见等式(10)),称为“自旋-自旋相关”(V)1超参数(q,n,ω,m):目标信噪比:q。根据q计算的样本大小n。相关阈值:ω。迭代次数:m.(V)2重采样簇:k=1到m1。计算N×N矩阵f(k)ij,2。n个指数的聚类样本,3。计算N×N矩阵d(k)ij。(五) 3概率矩阵:计算N×N矩阵pij(等式(10))。(五) 4有序过滤依赖矩阵:计算pωij(等式(11))(V)5最终配置:最终集群配置可以从作为图的邻接矩阵的有序矩阵pωij构建。表V:凝聚可能性聚类的引导例程(参见Python脚本“cluster resampling.py”[45])。目标是重复聚类dij(等式(9))中聚集的数据集子集,转换为归一化概率pij(等式(10))并过滤为顺序过滤依赖性pωij(等式(11)),从中提取最终聚类。采样的n个指数包含在n中,这意味着例程将对相关矩阵质量因子q高于q的数据集的小子集进行聚类。该操作将在预设的迭代次数m中重复,我们使用矩阵aan和F创建C*.

18
kedemingshi 在职认证  发表于 2022-6-24 13:24:42
然后将阈值函数应用于C*要创建具有断开组件的过滤邻接矩阵,请从中提取聚类解决方案:CF*.最大迭代次数m是任意的,实验表明,算法的收敛性依赖于n,间接依赖于n。这意味着更大的数据集需要更多的索引空间采样。我们任意设置最大迭代数:m=2200。最后,我们探索了两个阈值:ω=0.5和ω=0.75,并将其与使用niave相关矩阵进行比较。虽然是任意的,但直觉来自于[3],其中用于将同一组中的对象聚类的阈值是0.5。bootstrap方法在几个相关数据集上进行了测试,这些数据集的大小和时间序列长度介于N=1000和D=10到N=3000和D=30之间。选择nsample大小时,如果q=0.01,则q=0.1。使用ARI将输出集群解决方案与地面真相进行比较。ARI也可用作映射条件:如果ARI≥ 0.9算法停止。(a) ARI用于使用阈值ω=0.5的自举ALC。(b) ARI用于使用阈值ω=0.75的自举ALC。图3:ARI是针对使用bootstrap方法和地面真相恢复的集群解决方案计算的。数据集大小从1000到3000不等,信噪比固定在q=0.1。图(3a)和(3b)显示阈值为0.5,明显低于0.75。在图(3a)中,2000次迭代后,解尚未收敛。尽管它们似乎在遵循上升趋势,但经过500次迭代后,所有轨迹都绝对不如图(3b)中的对应轨迹。在图(3b)中,我们展示了优越的情况。假设所有数据集都有固定的q=0.1,我们表明bootstrapmethod性能与n的大小相关,样本量越大,结果越好,位置越小。

19
kedemingshi 在职认证  发表于 2022-6-24 13:24:45
虽然在前750次迭代中,性能的增长是积极的,但在3种情况下(n=100、150、200),性能往往会下降到超过该点,之后该算法因达到最大迭代次数而停止。认为较大的氮是有益的结论是错误的,这是因为q是固定的,而n是增加的。该问题与表(IV)有关,其中,对于数据集大小为N=500、1500、3000的最短时间序列(即长度20),相应的ARI分别为0.68、0.54和0.48。当时间序列长度较小时,ARI与数据集的大小呈负相关。将Bootstrap方法应用于N=2000、N=200、序列长度为20的类似情况(参见图(3b)中的绿色曲线),在750次迭代后,ARI高于0.8,从而证明了该方法在处理大数据集和短时间序列时的有用性。六、 与HDBSCAN相比,分层块相关性SALC在使用单因素模型生成的相关时间序列的聚类系统中非常有效,但似然模型使用的是使用单因素显式推导的模型。Realisticcorrelation结构将包括包含多个因素的更复杂的时间序列模型。特别是,金融时间序列聚类中的一个重要相关问题是具有块层次结构的聚类相关矩阵[24、40、41]。这里,每个块对应一个相关集群,该集群应该与其嵌套结构一起可恢复。ALC和HDBSC都无法恢复树状图,Hencec也无法恢复完整的嵌套结构,除非对每个已识别的集群进行递归迭代,直到只剩下单例,并保留这些分层迭代的配置路径。

20
能者818 在职认证  发表于 2022-6-24 13:24:48
因此,比较ALC和HDBSCAN在块层次问题上的差异是有用的,因为这将更清楚地说明ALC如何处理可能存在于集群中的子集群。考虑N只股票,其价格回报率受到一组c层次因素η的影响,以及 股票的个体效应;此处η和 是IID随机变量~ N(0,1)。相关矩阵可以按嵌套簇组织:h ···  香港 ···  hc,其中h、····、hc表示因子η、····、η依次添加到信号中的层次结构,以便沿着层次结构路径,所有股票都是相关的,而较低层次结构继承了较高层次结构的所有因子。当我们考虑价格回报过程模型xi:h:xi=βη+α时,图像更清晰i、 (12)。。。hk:xi=βη+···+βkηk+αki、 (13)。。。hc:xi=βη+····+βkηk+···+βcηc+αci、 (14)(a)使用等式生成的具有5个层次结构的聚类的相关矩阵。(12) -(14)(b)使用等式生成的具有5个层次结构的3个集群系统的相关矩阵。(12) -(14)(c)使用等式生成的具有5个层次的聚类树状图。(12) -(14)(d)使用等式生成的具有5个层次结构的3个集群系统的树状图。(12) -(14)图4:具有嵌套簇的相关矩阵及其各自的树状图。左边是5层模型,右边是3个集群,其中有5个嵌套的层次结构。此处αk=1-Pkjβjk是层次索引,其中,α调节信噪比,并且可以通过强制sumPjβjt等于0到1之间的任何值来任意设置为任何值。βs的选择也应确保βj<βj+1这确保了属于等级HK的股票与ηk更相关。有许多方法可以参数化此类嵌套线性模型,事实上,这只是Tumminello等人的更一般模型的特例。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 17:58