楼主: 何人来此
1274 22

[量化金融] 金融网络的动态多因素聚类 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-5-8 04:49:31
(d) 根据地理位置着色数据的结构类似于上一节中讨论的结构,其中,虽然部门是决定数据集群结构的最重要因素,但在每个部门内的子集群公司中,地理也起着重要的次要作用。。换句话说,这些公司的结构似乎让人想起图1b。最后,我们使用第节讨论的算法对数据进行分层聚类。三、 图2c显示了结果树状图,其中公司根据其行业成员进行了着色,而图2d显示了相同的树状图,但根据地理位置进行了着色。根据前面的讨论,HC发现的集群与预期一致,行业树状图显示的纯色块(因此也有更多的集群结构)比基于地理位置的着色块多,右下角的金融公司(绿色,灰色)形成了一个特别明确的集群,但在整个树状图中,同一行业内的公司倾向于聚集在一起。相比之下,地理树状图更加零碎;可以看出,相邻公司通常与同一个国家的公司有联系(由许多2-3种相同颜色的集团表示),但由于公司主要根据行业进行拆分,因此没有大规模的集群形成。为了进一步评估这一点,我们将引入一种更定量的方法来评估集群基于行业和地理的程度。然后,我们将展示数据转换如何消除行业影响,从而使地理分组更加可见。A.

12
可人4 在职认证  发表于 2022-5-8 04:49:34
纯度为了量化数据中发现的集群与真实的行业/地理分组对应的程度,必须将HC生成的树状图与从标准普尔获得的行业和地理信息进行比较。然而,这是微妙的,因为正如我们在第二节中提到的。在上文第二节中,这些分组是ratherbroad,每个ratherbroad部门分类中可能有几个子部门。评估HC发现的集群是否与realsector/geography集群相对应的一种简单方法是,使用一些合适的基于熵的度量来切割树状图,形成硬集群,然后将其与标准普尔标签进行比较。让Cibe成为数据中的一个集群,让Sjbea根据标准普尔收集共享相同行业(或地理)标签的公司。然后,CIAN和SJ之间的重叠可以根据它们共同拥有的公司数量来确定。一个可能的衡量标准是Jaccard指数[?]:|词∩ Sj | | Ci∪ Sj |。然而,这对我们的目的不起作用;假设聚类算法将金融公司分成两个子组,一个包含银行,另一个包含保险公司。两者都将有较低的Jaccard指数,因为两者都与标准普尔的金融公司名单不完全相符。为了避免这个问题,我们定义了一个纯度的概念,它考虑了数据的层次结构,并直接选择了树状图。假设我们希望量化HC树状图中某些行业的公司重新聚集在一起的程度。让我们来看看属于这个行业的两家任意的公司。从Sec召回。III.HC算法分层合并集群,直到只剩下一个集群,其中包含数据集中的每个公司。因此,在树状图上有一个最低点,CIAN和CJ合并到同一个簇中。

13
mingdashike22 在职认证  发表于 2022-5-8 04:49:38
直观地说,这是包含两个DCJ的数据中最小的聚类。然后计算该簇中与CIAN和CJ属于同一扇区的点的分数。然后对该部门的所有成对公司重复该程序,平均值表示部门纯度。类似的程序可用于测量每个国家的纯度。该程序以前曾被[?]使用过在稍微不同的背景下。转型前行业纯度国家纯粹消费者自由支配0.49(<0.001)法国0.22(0.004)消费品0.53(<0.001)德国0.18(0.005)能源0.83(<0.001)英国0.38(0.003)金融0.75(<0.001)希腊1.00(<0.001)医疗0.55(<0.001)意大利0.25(<0.001)工业0.33(<0.001)荷兰0.10(0.016)信息技术0.93(<0.001)西班牙0.23(<0.001)材料0.47(<0.001)瑞典0.41(<0.001)电信服务0.53(<0.001)瑞士0.11(0.007)公用事业0.77(<0.001)转型后国家纯度法国0.26(<0.001)德国0.40(<0.001)英国0.75(<0.001)希腊1.00(<0.001)意大利0.32(<0.001)荷兰0.16(0.002)西班牙0.93(<0.001)瑞典0.93(<0.001)瑞士0.001)表二左在对数据进行任何调整之前,手表显示了每个部门和国家的纯度。右边的表格显示了第节讨论的调整后的纯度。已执行VI,以分别消除行业/地理成员的影响。括号中给出了P值。在表IIa(左侧)中,我们展示了数据中每个行业和国家的纯度得分。

14
能者818 在职认证  发表于 2022-5-8 04:49:41
可以看出,这些分数大体上反映了我们在上一节中提到的数据的定性特征,基于行业的典型纯度分数实质上高于地理分组的分数。为了帮助解释表IIa,重要的是评估高纯度分数是否代表数据中的真实结构,或者它们是否纯粹是统计噪声的结果。为此,我们使用了一种统计意义的度量方法,类似于排列测试[?]。假设一个特定的行业或国家包含M家公司。为了评估观察到的纯度分数是否显著,应将其与随机抽样的M家无关公司的纯度分数分布进行比较,因为后者代表的是预期通过纯概率得出的分数。arandom样品的纯度分数分布可通过与置换试验相同的方式进行估计[?],这是统计应用中常用的。首先,从数据集中随机选择一个Mcompanies样本,每个公司被纳入样本的概率相等。接下来,计算该样本的纯度分数;由于这些公司是随机挑选出来的,所以所得分数不太可能很高。通过使用不同的随机选择样本多次重复该过程,纯度分数分布可以近似。然后,可以根据相同大小的随机样本纯度相等或更高的概率,为表IIa中的每个纯度分数计算p值。如表所示,结果P值都非常小,这表明表IIa中给出的行业和国家的纯度分数确实符合数据中的真实结构。六、

15
何人来此 在职认证  发表于 2022-5-8 04:49:44
发现隐藏的集群为了揭示地理位置对集群结构的影响,我们建议调整每家公司的收益序列,以消除行业成员的影响。如果以原则性的方式消除了行业因素对回报的影响,那么地理因素的影响应该更清晰,在转换后的数据中也应该更少被掩盖。在之前对金融价格变动的研究中,已经发现观察到的相关结构中有很大一部分可以用代表整个市场经济的单一“市场因素”来解释。换句话说,每家公司都与全球市场因素高度相关,这一事实可以解释单个公司之间的大部分相关性。这种现象已经在许多不同的金融数据集中发现,通常使用随机矩阵理论[?]。最近[?]研究表明,如果调整相关矩阵以消除市场因素的影响,那么矩阵的结构噪音就会小得多——在每个公司与全球因素的相关性被消除后,剩余的剩余相关性可以更清晰地确定集群效应。在[?]中,评估了几种消除全球市场因素影响的方法。其中每一项基本上都涉及从每家公司的每日价格回报中减去市场因素的每日价格回报。他们发现,最成功地将公司相关性与市场因素解耦的方法如下。首先,通过定义为投资组合中所有股票的平均回报率的合成“伪指数”来估计与市场因素相关的回报率的组成部分:Rt=NNXi=1ri,t(3)该伪指数对每只股票回报率的影响可以通过回归消除。

16
何人来此 在职认证  发表于 2022-5-8 04:49:47
在标准的一元线性回归模型中,一组因变量{Y}与一组自变量{X}之间的关系被建模为asYi=α+βXi+我 ~ fwf是一个平均值为0的对称分布。在这个模型中,yi的期望值是β+βXi,而Ire表示Yi的剩余变化,Xi没有解释。α和β的值可以用标准的普通最小二乘法估计。如果将伪指数的收益率回归到每只股票的收益率上,则会得出以下模型:ri,t=αi+βiRt+i、 t,(4)式中,ri,t表示第t天的股票回报率。残差i、 t则代表股票i收益的组成部分,这些组成部分未被市场因素解释。如[?]所示如果每个ri都被i、 t在计算inEqn的相关性时。1用于聚类,则结果往往没有噪音,因为每个股票与市场因素的相关性被去除。请注意,也可以通过将每家公司的收益回归到真实股票指数(如标准普尔350指数本身)的收益来执行相同的调整,以便将RTAOVE替换为该指数的每日收益。然而,我们选择使用Eqn中的伪索引。3相反,因为[?]通过实验分析发现,使用这种伪指数比使用真实指数更能有效地消除公司之间的关联。我们建议使用类似的方法来消除行业成员的影响。weinstead没有构建一个代表整个市场的伪指数,而是分别为每个部门构建一个单独的伪指数,只对该部门公司的回报进行平均。然后,对每家公司所属行业对应的伪指数进行回归。这样,对每家公司都有影响的行业就被消除了。

17
何人来此 在职认证  发表于 2022-5-8 04:49:50
假设jthGICS Industrial Sector SJM包含返回向量SR(1),r(M)。相应的部门伪指数为:Sjt=MMXi=1r(i),t.(5)。然后,通过与相应的部门指数r(i),t=α(i)+β(i)Sjt+进行回归,每个公司将其与部门成员相关的returnsvector的组成部分移除(i) ,t.(6)然后,当从等式n计算相关矩阵时。1用于聚类,每个-0.4-0.20.00.2-0.4-0.2 0.0 0.2(a)(b)图3:MDS投影和调整后的数据树状图,以消除部门成员身份的影响,公司根据地理位置着色。可以看出,消除行业成员的影响可以更清楚地了解地理位置对集群的影响。公司被替换为剩余的(i) ,t,代表与部门成员无关的方差分量。由于行业成员的影响将在很大程度上从数据中消除,地理位置的影响应该在聚类结构中更清楚地表现出来。然而,使用上述回归技术时会出现问题。由于我们单独考虑每个行业,因此只有少数公司对每个行业的伪指数Sj做出贡献。由于金融价格收益率序列往往是重尾和非高斯[?],一家公司回报的极端价格变动有可能会大幅扭曲结果。因此,我们转而使用稳健回归分析领域的技术。首先,我们不是将伪指数定义为该行业每只股票(i)t的平均值,而是将其定义为中位数。众所周知,样本中值对异常值的敏感度远低于样本均值。

18
大多数88 在职认证  发表于 2022-5-8 04:49:54
现在,我们将在第t天为j区生成的基于中间值的伪指数编写SJT。虽然这会产生更具代表性的伪指数,但如果通过普通最小二乘法估计回归系数α和β,如果残差(i) ,t来自非高斯平均尾分布。因此,我们使用heil-Sen估计来估计每个α和β,而不是标准最小二乘估计。在可能存在极值的情况下进行回归时,泰尔森方法被广泛使用,因为它比普通最小二乘法对异常值更具鲁棒性[?]。泰尔森估计值可以如下计算:对于j区的每个公司i,将数据写入t=1、2、…、的有序对(Sjt、ri、t),T斜率估计器^βi被定义为这些对之间所有成对斜率的中位数,即:^βi=中位数李,m- 李,nSjm- Sjn, m6=n,其中m和n覆盖所有有序对。鉴于该估计,截距估计量αiis被定义为ri,t的中位数-^β值。由于该估计器是根据中间值定义的,因此它对数据中的异常值具有高度鲁棒性,并将比使用标准最小二乘法对数据进行更好的拟合。根据Eqn,在每个公司的价格回报被转换以消除行业成员资格的影响之后。6使用泰尔-森方法估计α和β系数后,在数据上重新运行聚类算法。图3a显示了在消除行业成员影响后,按国家着色的公司MDSplot。与第节中的图2b进行比较。V地理集群变得更加明显,并且有几个清晰的集群。

19
可人4 在职认证  发表于 2022-5-8 04:49:57
左下角的绿色(灰黑色)集群代表英国的国家,与右上角的棕色瑞典公司一样,构成了一个特别独特的群体。图3b显示了在调整后的数据上运行分层聚类算法产生的树状图;正如预期的那样,发现的地理集群比以前更坚固,颜色带更厚。为了定量评估部门成员的减少对HC发现的地理集群纯度的影响,表IIb给出了与每个国家相关的新纯度。现在,这些分数远高于回归调整前表IIA中的分数,几乎每个国家的纯度都要高得多,尤其是芬兰、德国、英国、葡萄牙、西班牙和瑞典。该分析表明,与第一印象相反,地理在决定集群结构方面起着重要作用。只有行业成员的影响力更大这一事实掩盖了这一点。七、动态分析我们现在调查每个国家的聚类纯度是如何随时间变化的。这一点很重要,因为之前没有理由相信地理影响将是静态的,尤其是在最近的金融危机和主权债务担忧的情况下。正如导言中所讨论的,这对风险管理具有潜在影响,因为评估投资组合的风险时应考虑动态相关性结构中的潜在变化,以及公司在不同时间基于不同因素聚集的可能性。为了研究集群结构如何随时间演化,我们必须允许公司i和j之间的相关性ρij是时变的,而不是像Eqn中那样在整个时期内固定不变。

20
mingdashike22 在职认证  发表于 2022-5-8 04:50:00
1在静态情况下。给定一个适当定义的时变相关性ρij,t,公司之间的动态距离度量可以用与静态情况类似的方式定义:Wij,t=q2(1- ρij,t)。(7) 为了准确估计时间t的真实(动态)相关性ρij,必须以一种方式定义它,即以最大的权重表示最近的股票价格,以较小的权重表示较旧的价格。实现这一点的通常方法[??]是通过滑动窗口的概念,在滑动窗口中,仅使用最近的w观测值计算时间t的相关性,以选择窗口长度w。然而,我们认为这种加权有点不现实;,最后一次w观测的权重相等,然后突然下降,老的观测根本没有权重。因此,我们改用指数遗忘法,它可以使分配给旧观测值的权重更平稳地衰减。让λ∈ [0,1]表示遗忘因子,其中接近1的值会导致更多权重被赋予接收观察。公司的时变方差可以定义为:σi,t=(1- λ) σi,t-1+λ∧ri,t,σi,0=0,公司与j之间的时变相关性可以类似地定义为:ρij,t=(1- λ) ρij,t+λ@ri,t@rj,tσi,tσj,t,ρij,0=0。这通过加权移动平均实现指数平滑,加权移动平均为最近的观测赋予更高的权重,λ控制较旧观测被遗忘的速率。我们在以下分析中使用了λ=0.01的值,以减少短期波动的影响,尤其是在只有少数国家的数据可用的国家。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-19 23:41