楼主: kedemingshi
1258 25

[量化金融] 批发电力市场中的关联和聚类 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-6-1 15:42:05
在我们正在研究的两个电网中,每个LMP时间序列都分配了一个标识符,该标识符以“地名代码”的形式给出。这使得我们可以使用stringkernel[22,23]方法来计算识别字符串之间的相似性。在统计学习社区中,有几种用于估计各种类型数据集之间关系的核心方法。例如,可以构造核来估计图像和句子之间的相关性【20、21、22】。直觉上,较高的字符串核相似性表明,这两个时间序列位置更有可能在地理上相互受益。4、聚类方法4.1。光谱聚类推断高维时间序列数据结构的标准方法是对数据进行聚类[8]。作为第一个示例,考虑GirvanNewman算法【24】,该算法通过逐步移除原始图形的边来推断结构(根据图6:使用图形lasso优化forMISO(左)和PJM(右)评估的稀疏相关性推断)。例如,时间序列),最后剩余的连接组件表示数据中的“社区”。Girvan-Newmanalgorithm的一个缺点是它对大型图的效率很低,这是因为需要在每次迭代时计算相应图Laplacian的特征向量。此外,如【25】所述,Girvan-Newman算法不太适合相关矩阵,需要稍加修改。在下文中,我们将使用基于与Girvan-Newman算法相同直觉的谱聚类[26],但我们只需要找到原始图Laplacian的谱,然后使用kmeans算法找到底层社区。在图中。

12
mingdashike22 在职认证  发表于 2022-6-1 15:42:08
7我们在一小组ISO节点的情况下显示原始聚类结果的选定样本。已连接低于中值相关的矩阵元素。原始结果中总共使用了200个聚类(有关进一步讨论,请参见第5节)。4.2. 社区检测算法另一种聚类方法是使用社区检测算法。为了提高这些算法的效率并过滤掉可能存在的任何噪声,我们将在聚类之前使用各种过滤算法。过滤经验相关矩阵的第一种方法是基于最小生成树(MST),这是一种仅包含最大相关性的树结构图[8、25、27、28]。对于具有N个元素的系统,只有N个元素的树结构图-1链接由MST过滤算法保留。这种方法与单链接层次聚类算法密切相关【32】,该算法自动生成一个凝聚算法,最终生成一个树状图,将元素从原始相关矩阵排列成层次结构【25,32】。之前的研究[25]还表明,当首次使用强相关性确定分类树的低层次结构时,MST更可靠,而当使用弱相关性确定高层次分类树时,MST的可靠性逐渐降低。MST的一种推广称为平面最大过滤图(PMFG),它释放拓扑约束以包含更多的链接。这保留了MST以及额外链接的数量,前提是生成的图仍然是平面图[25]。

13
大多数88 在职认证  发表于 2022-6-1 15:42:11
由于MST与层次聚类算法相关,PMFG已被证明与包含更多信息的有向气泡层次树(DBHT)相关[32]。与MST一样,该方法的目标是找到假定的近似结构,而不是搜索内部相关性比彼此相关性更大的时间序列组。因此,我们还需要一种图社区检测方法,所以我们将使用模块化最大化算法来检测图社区。分区的模块性是-1和1测量社区内部链接密度,并与社区之间的链接进行比较【30】。对于加权网络(加权网络是指在其链路上具有权重的网络),定义为q=mXi,j[Ai,j-kikj2m]δ(ci,cj),(14),其中Ai,jr表示i和j之间的边的权重,ki=PjAi,jis表示连接到顶点i的边的权重之和,ci是指定给顶点i的社区。我们使用了[31]中提出的算法,该算法快速且稳定。关于基于MST方法的聚类结果的一小组节点,请参见图8;关于PMFG,请参见图9。在我们的玩具示例中,根据位置,我们有两个组,CIN和AMMO。对于AMMO,我们有3个子组:MERAMEC、KEOKUK和RCCKETG,分别包含4、8和3个元素。对于CIN,可以在没有任何链接交叉的平面上绘制图形图7:MISO的一小组节点的网络重建。图中显示了每个节点的位置字符串。相同颜色的节点属于同一簇,这是通过光谱聚类计算得到的。黑色节点是那些与位置代理分区相关的错误分类。图8:使用MST滤波对一小组MISO节点进行网络重建。图中显示了每个节点的位置字符串。

14
nandehutu2022 在职认证  发表于 2022-6-1 15:42:15
相同颜色的节点属于同一簇,这是通过模块化最大化平均值计算的。Blacknodes是那些与位置代理分区相关的错误分类。图9:使用PMFG滤波对MISO的一小组节点进行网络重建。图中显示了每个节点的位置字符串。相同颜色的节点属于同一个簇,这是通过模块化最大化计算得到的。黑色节点是那些与位置代理分区相关的错误分类节点。有3个子组包含1个以上的元素,分别是MIAMWEB(5个元素)、VERMN(5个元素)和SUCRKGT(2个元素),5个子组只包含1个元素(我们称之为“单元素”):GIBSON、WR1CT、HE、CONNERV和NOBLEVL。理想情况下,一个好的分区应该将来自相同子组的元素聚集在一起,如果一个元素是单个的,则应该将其分配给类似的子组。因此,我们的位置代理提供了一个很好的基准(最后一幅图见图7-9)。通过计算黑色节点,我们发现几乎所有的方法都可以正确地检测到大型子群(如AMMO KEOKUK和CIN VERMN),而在涉及小型子群时往往会出错。在我们的例子中,RMT滤波相关和稀疏相关的性能优于其他相关。我们认为这是因为这些方法对较小的亚组更敏感,而我们发现其他方法提供的结果不太准确。至于聚类,我们发现MST和PMFG明显优于光谱聚类,因为它们学习的是稀疏网络结构,其中包含尽可能多的信息,同时过滤噪音。5、光谱聚类分析在应用光谱聚类方法时,必须选择聚类数。我们将使用差异(异质性度量)和调整后的兰德指数(相似性度量)。5.1.

15
大多数88 在职认证  发表于 2022-6-1 15:42:18
聚类异质性度量:disparityDisparity用于度量集群大小的异质性。一些聚类方法可能更喜欢大小平衡的多个聚类,而othersmight则提供了细分为几个非常大的聚类和许多小的聚类[32]。为了用一个数量来描述集群大小的分布,我们可以使用差异度量[32]:d=σS(15),其中σ是标准偏差σS=sNc- 1Xa(Sa-秒)。(16) 归一化因子S是平均值S=NcXaSa,(17),其中sai是簇a的基数,nci是簇的数目。d=0的情况对应于所有大小相同的集群,而较大的数据意味着集群大小更加异构。5.2. 聚类相似性度量:调整后的兰德指数调整后的兰德指数(RARI)通常用于度量两种聚类方法的结果之间的相似性。在我们掌握了数据分区的基本事实的情况下,我们可以使用RARIas作为聚类算法的精度度量。如果我们假设位置为LMP数据提供了一个良好的分区,那么我们可以使用RARI与根据stringkernel相关性计算的位置代理来比较聚类结果。该方法计算两个分区中位于同一集群中的对象对的数量,然后将其与独立分区假设下的预期数量进行比较【32】。RARItakes中的值[-1,1],其中1对应于相同簇的情况,0对应于两个完全不相关的簇【32】。负值表示两个分区之间的反相关,这意味着这两个分区的重叠对数小于两个随机分区之间的预期重叠数[32]。我们计算两个分区Y和Y之间的“列联表”M,系数为[32]:mij=| Yi∩ Yj |。

16
kedemingshi 在职认证  发表于 2022-6-1 15:42:22
(18) 这是簇yi和Yj相交处的对象数。Mis是一个k×l矩阵,其中k和l分别是Y和Y的簇数。让我们将a称为在Y和Y中处于同一簇中的对象对的数量,将b称为在Y和Y中处于两个不同簇中的对象对的数量【33】。然后,将兰德指数定义为a和b的总和,通过对的总数进行归一化[33]:R(Y,Y)=2(a+b)N(N- 1) =kXi=1lXj=1mij公司. (19) 然后,我们将广义超几何分布作为与两个独立集群相关的零假设,并将调整后的兰德指数定义为零假设下兰德指数与其平均值之间的差异,通过该差异可达到的最大值进行归一化[32]:RARI=R- tt+t- t、 (20)其中t=Pki=1|易|, t=Plj=1|Yj公司|, t=2ttN(N-1).我们将使用这两种方法来调整光谱聚类中的参数。5.3. 聚类数的选择为了在谱聚类中调整聚类数n,我们将聚类结果与每种相关类型的位置代理划分进行比较。位置代理是基于串相关的谱聚类结果,这意味着我们需要确定位置代理的聚类数。这可以通过在n和ns之间构建关系来实现:ns=(144 n≤ 144n n>144,(21),其中144是MISO中不同“名称代码”的数量(见第3.6节)。如果ns=144,我们使用的信息与使用“代码”分区的信息完全相同。如果ns>144,我们会使用比代码提供的信息更多的信息,因为有些代码会被分为几个部分。如果聚类评估需要更多信息,它将随着聚类数n的增加而增加。对于n为1到300的每种类型的相关度量,我们计算相对于位置代理的RARI。

17
nandehutu2022 在职认证  发表于 2022-6-1 15:42:25
一个好的聚类数n应该使聚类结果稳定,所以我们要调整聚类数,直到不敏感为止。图10示出了视差和ARI如何相对于簇的数量变化。正如我们所看到的,当簇数增加时,视差和ARI会收敛。我们可以发现,当集群数量大于(大约)200时,所有ARI都会先增加,然后减少,然后收敛。对于RMT过滤的相关性,ARI收敛到0.3左右,而其他的则收敛到0.15。至于差异,这六个相关性随着聚类数量的增加而增加,当聚类数量达到200个左右时会收敛到一个值。基于这些结果,我们使用200作为光谱聚类的聚类数。图10:基于五个相关度量的差异和ARI作为聚类数的函数。在这里,我们使用MISO的最后5000小时LMP数据。6、市场结构的动态分析在本节中,我们分析了市场结构随时间的变化。我们首先分析每个相关矩阵的平均值和最大特征值的行为,然后分析聚类结果如何随时间变化。我们使用的方法已在【12】中介绍,用于估计何时发生结构性变化(例如,跨越整个市场的变化)。6.1. 相关矩阵的动态分析相关矩阵的平均值表示一组时间序列的内部相关强度,邻接矩阵的最大特征值提供关于图的平均度的信息。

18
何人来此 在职认证  发表于 2022-6-1 15:42:28
此外,它还提供了每个相关性如何随时间变化的信息。事实上,一般图的邻接矩阵A的最大特征值λao满足以下不等式:max(dav g,√dmax)≤ λA≤ dmax,其中dav是图中节点的平均度,dmaxis是最大度。图11:每周六种不同相关性测量的平均相关性和最大特征值。平均NormPearson 0.5703 905.46平滑Pearson 0.8656 1329.5事件同步0.44 697.04 rmt滤波相关0.12 203.6稀疏相关0.3323 539.84表1:每个相关矩阵的平均值和范数表6.1和图11显示了不同相关矩阵的平均值和最大特征值随时间的变化。RMT滤波相关具有最低的相关强度和最高的稀疏性,同时平滑皮尔逊相关具有最高的强度和最低的稀疏性。我们观察到,平滑Pearson确实会随着时间的推移而突然变化(无论是在平均值还是在最高特征值上),但正如我们将在下面看到的,它是两种方法之一(与事件同步一起),随着时间的推移,提供了相当稳定的ARI。差异ARI基准ARI位置皮尔逊相关3.3031、5.7603(104)0.1633、0.3254(97)0.1303、0.2256(54)平滑皮尔逊3.8523、9.426(73)0.0581、0.1857(76)0.0595、0.2255(108)事件同步2.9588、5.7923(99)0.1379、0.3224(3)0.1203、0.2355(184)RMT过滤相关8.6147、12.2508(118)0.0716、0.3633(69)0.0659,0.386(106)稀疏相关6.866,10.8894(62)0.1161、0.5735(69)0.0411、0.1709(176)表2:每个相关矩阵的谱聚类结果的平均和最大视差、ARI基准和ARI位置。括号中的数字表示达到最大值的一周。6.2.

19
能者818 在职认证  发表于 2022-6-1 15:42:32
聚类结果的动态分析在本节中,我们使用谱聚类和最小生成树模块化分析分区的动态特性。我们考虑了5种不同的相关度量。我们使用ARIs来衡量两个聚类结果之间的差异,并使用差异来衡量聚类大小的异质性。我们考虑了两个ARI度量:“ARI location”,它基于相同聚类方法中的位置代理划分,以及“ARI benchmark”,它基于上周(第209周)对应的相关矩阵中的聚类。6.2.1. 谱聚类结果分析对于每种相关方法,我们计算数据中每周的TLMP的相关矩阵,并使用clusternumber等于200的谱聚类。图12显示了基于三种不同相关性度量的光谱聚类结果的时间行为。表6.2.1显示了每个光谱聚类的平均值和最大值。我们可以看到,在RMT滤波相关和稀疏相关方法的情况下,相对于平均值,差异很大(分别约为8.6和6.8)。这意味着RMT过滤相关和稀疏相关方法更喜欢聚类大小的高度异质性和光谱聚类设置中不太稳定的分区。ARI获得的与位置代理、平滑相关、RMT滤波相关和稀疏相关相关相关的值分别包含在内。PMFG不包括在内,因为它类似于MST,但需要更多的计算资源。括号中的数字是度量值达到最大值的一周。图12:5个相关度量的光谱聚类结果的差异和AIR动态。约为0.07,而后者约为0.13。

20
mingdashike22 在职认证  发表于 2022-6-1 15:42:35
原因是这三种方法去除了原始相关矩阵的重要部分,但两组的ARI都很小:在这种情况下,差异并不显著。RMT过滤的相关性具有最高的最大ARI:这告诉我们,它可能有潜力超越其他相关方法。至于波动,我们看到所有相关度量都具有相似的行为。6.2.2. MST模块化最大化聚类分析与谱聚类分析类似,我们为每个相关矩阵构建一个最小生成树,并基于模块化最大化算法查找聚类。图13显示了基于不同相关性度量的MST模块化最大化的三个度量。表6.2.2显示了每次测量的平均值和最大值。MST聚类的动态视差行为类似于光谱聚类,而RMT滤波相关和稀疏相关度量具有更高的平均值(分别约为1和0.65)和视差波动,其他两个具有类似的平均值(约为0.38)视差ARI基准ARI位置皮尔逊相关0.3598、0.4977(144)0.1114、0.1941(207)0.0885,0.1132(24)平滑相关性0.3758,0.5221(114)0.0672,0.1928(208)0.0697,0.0952(133)事件同步0.4236,0.5736(164)0.1578,0.3437(208)0.1413,0.1847(113)RMT滤波相关性1.0171,2.5354(56)0.0772,0.1223(199)0.2262,0.3526(117)稀疏相关性0.6527,3.5332(36)0.1299,0.3912(207)0.1576,0.2988(131)表3:平均和最大差异,每个相关矩阵的MSTmodularity最大化结果的ARI基准和ARI位置。括号中的数字表示达到最大值的一周。和函数。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 01:34