楼主: 能者818
1504 48

[量化金融] 金融市场结构与实体经济的关系: [推广有奖]

11
可人4 在职认证  发表于 2022-5-6 06:58:55
然后将兰德指数定义为a和b之和,并通过X:R(Y,Y)中的总对数进行标准化≡2(a+b)N(N)- 1) =kXi=1lXj=1米吉. (8) 然后,我们使用广义超几何分布作为与两个独立聚类相关的零假设,并将调整后的兰德指数定义为零假设下兰德指数与其平均值之间的差异,通过这种差异可以达到的最大值进行归一化:Radj(Y,Y)≡Pki=1Plj=1米吉- t(t+t)- t、 (9)式中t=kXi|易|, t=lXj|Yj|, t=2Tn(N- 1). (10) 我们有拉杰∈ [-1,1],其中1对应于相同聚类的情况,0对应于两个完全相关的聚类。相反,负值显示Y和Y之间的反相关(即,Y和Y以相同方式分类的成对数小于假设两个聚类之间随机重叠的预期数)。集群产业过度表达的超几何检验调整后的兰德指数提供了集群划分和产业分类之间相似性的总体衡量标准。为了分析每个产业部门被每个集群回收了多少,我们必须分别查看给定集群和给定部门内的存量,并测量共同的存量数量。如果一个集群和一个工业部门之间的共同存量百分比敏感地高于社区随机重叠的预期值,则表明该集群过度表达了一个特定部门。为了量化这种过度表达,我们使用了统计单尾假设检验,其中零假设是超几何分布,它描述了两个给定大小的群体在N原子上随机拥有共同k个对象的概率[36,37]。特别是,让我们把Yia集群称为我们的集群和Yja部门。我们想验证Yi是否过度表达Yj。

12
能者818 在职认证  发表于 2022-5-6 06:58:58
如果k是Yjand Yi之间的共同股票数量,|Yi |,|Yj |分别是集群和部门的基数,则超几何分布为[36]:P(X=k)=|Yj | kN-|Yj||Yi|-KN|Yi|. (11) 这是检验的无效假设:为了通过随机重叠来区分,普通股票的数量k必须与随机重叠显著不同,因此P(X=k)必须很小。如果P(X=k)小于显著水平,则表示该测试被拒绝。如果这个测试没有被拒绝,那就意味着我们不能拒绝这样一个假设,即Yiji的k股来自某个部门,而不是某个部门,而不是某个部门。相反,如果试验被拒绝,我们得出结论,簇Yi过度表达Yj区。我们选择了1%的显著性水平,以及多项测试的Bonferroni校正,这显著降低了每项测试的显著性水平[36](更多详细信息见“行业过度表达”一节)。数据集和初步分析本文研究的相关结构涉及纽约证券交易所(NYSE)的N=342只股票。数据集的完整描述见补充信息(SI)。我们分析了i=1的收盘日价格Pi(t)。。。,N.1997年1月1日至2012年12月31日(4026个交易日)。根据价格,我们计算了每日日志回报率[32,33]:ri(t)≡ 对数(π(t))- 对数(Pi(t- 1)). (12) 从一个时间窗口T=[tstart,tend]上的N个对数返回时间序列集合中,我们计算了N×N相关矩阵ρ(T),其元素由皮尔逊估计量[38]给出:ρij(T)=hri(T)rj(T)iTq[hri(T)iT- hri(t)iT][hrj(t)iT- hrj(t)iT],(13)其中h。。。它表示时间窗口T内的平均值。

13
kedemingshi 在职认证  发表于 2022-5-6 06:59:01
然后对距离矩阵D进行聚类分析,元素Dij(T)=p2(1- ρij(T))。对于移动窗口的分析,我们使用了等式13中皮尔逊估值器的指数平滑版本,其中平均值中的项乘以权重wt=wexp(t-用t表示θ)∈ 根据它们与窗口T中最后一个交易时间的时间距离T。这种指数平滑方案[39]可以缓解远程观测中异常值的过度敏感性。根据之前制定的标准[39],参数θ被设置为θ=T/3。通过使用这种移动时间窗方法,我们对我们的股票集合的平均相关性进行了一系列初步分析,尤其是在2007-2008年金融危机中。具体而言,我们考虑了一组n=100个重叠时间窗口Tk(k=1,…,n),长度为L=1000个交易日(四年),在后续窗口之间换班30天。图1(蓝色圆圈)显示了L=1000和n=100时这些窗口的平均相关性hρ(Tk)ii。为了测试稳健性,我们验证了其他窗口大小的结果也类似,即L=750和L=1250。我们还研究了去趋势对数回报,即对数回报减去股票总体平均回报。具体而言,在[27]之后,我们考虑了每只股票的单因素模型i:ri(t)=αi+βiI(t)+ci(t),(14),其中共同市场因素i(t)是市场平均回报率,i(t)=NPiri(t),残差ci(t)是市场模式下的对数回报率。在使用a2000 2002 2004 2006 2008 2010 20120.150.20.250.30.35t平均相关系数hρR(Tk)iijhρ(Tk)iijj估计系数α和βi后,图1。证明平均相关性在市场不稳定期间随时间演化,并发生较大变化。

14
可人4 在职认证  发表于 2022-5-6 06:59:04
该图报告了k=1,…,的每个时间窗口的平均相关性。。。,n(n=100,每个时间窗口的长度为L=1000个交易日),用于非去趋势(蓝色圆圈)和去趋势日志回报(绿色方块)。通过改变市场模式,平均相关性大幅降低。通过线性回归,可以计算残差ci(t),并用于评估新的相关矩阵[27]。我们用ρR(Tk)表示在时间窗口tkw中估计的矩阵。我们将基于这种相关矩阵的分析称为“去趋势情况”。这些去趋势相关矩阵值得分析,因为它们可以提供更丰富、更稳健的聚类[27],可以携带原始相关矩阵[40]中不明显的信息。在本文中,我们使用去趋势和非去趋势对数收益进行了分析,比较了两者,并寻找可能突出共同因素对市场相关性结构影响的差异。图1显示了这些去趋势相关矩阵的平均相关性,即hρR(Tk)iij,与非去趋势相关矩阵hρ(Tk)iij的平均相关性进行了比较。正如我们所见,市场模式的减法降低了平均相关水平的50%左右,这表明了市场因素在相关结构中的重要作用。然而,我们仍然可以观察到2007-2008年金融危机对应的增长。此外,有趣的是,与非去趋势情况不同,在2009年达到峰值后,相关性水平降低。这一事实表明,尽管市场模式在平均关联度方面发挥着重要作用,但上一次金融危机的峰值似乎不仅仅是全球市场趋势。

15
何人来此 在职认证  发表于 2022-5-6 06:59:09
因此,我们认为,在某种程度上,它可能涉及股票之间的内部动态,这些动态在减法后仍然存在。结果静态分析DBHT聚类组合在本节中,我们展示了应用于前一节中描述的数据集的PMFG和DBHT聚类方法的结果。我们特别计算了PMFG和相应的图2。非去渲染和去渲染日志返回的平面最大过滤图(PMFG)和DBHTclusters的可视化。a) PMFG是在1997-2012年期间,使用非去趋势日志返回计算的。相同颜色的股票属于同一个DBHTcluster。b) PMFG基于与a)中相同的数据计算,但使用去趋势日志返回。同一颜色的股票属于同一DBHT集群。1997年至2012年期间的DBHT聚类,我们将其绘制在图2 a)中,其中我们用相同的颜色突出显示属于同一DBHT聚类的股票。在同一张图(图2 b)中,我们绘制了通过使用去趋势对数回归(等式14)计算的PMFG作为比较。这个PMFG看起来比第一个更结构化,聚类大小更均匀。然后,我们从工业部门的角度分析了DBHT集群结构。众所周知,股票收益率相关性的层次结构与工业部门分类[1][30][40]极为相似。这一事实支持了一个直观的观点,即同一工业部门的股票回报主要受同样的信息流和经济环境的影响。我们可以扭转这种推理,并声称,因此,stocksdata聚类方法的一个可取特征是在一定程度上检索工业部门分类。

16
何人来此 在职认证  发表于 2022-5-6 06:59:12
我们将参考工业分类基准(ICB)[41];这种分类将股票分为19个不同的超级部门,这些超级部门依次集中在10个不同的行业。有关ICB超射体术语中数据集组成的更多详细信息,请参阅SI。让我们指出,我们也使用Yahoo工业分区运行了本文中的所有分析,获得了类似的结果。在图3中,我们报告了通过使用去趋势日志返回(图2b所示的聚类)将DBHT方法应用于数据的整个时间窗口(1997-2012)获得的聚类的图形摘要。在S1文件中,我们对未预测的对数收益进行了相同的分析。DBHT检索数量为23的聚类Ncl:每个聚类都关联一个条,其高度代表聚类中的股票数量。每个条由不同的颜色组成,以ICB超反射体的形式显示每个簇的组成。图表左侧的图例显示了相应的工业超级部门。请注意,图3中的颜色标识了ICB超反射体,它们与图2中标识DBHT簇的颜色无关。最大的集群包含45只股票(占总数的13%),最小的4只。平均尺寸为14.8。

17
可人4 在职认证  发表于 2022-5-6 06:59:15
正如我们所见,有几个超导体被一个或多个簇过度表达,或者单独或与其他超导体一起过度表达:石油和天然气(簇7和簇15)、技术(簇18),公用设施集群标签库存数量单联汽车和零件银行基本资源计划建筑和材料金融服务食品和饮料健康护理工业产品和服务保险中介石油和天然气个人和家居用品房地产零售技术系统通讯水平和休闲公用设施1 2 3 4 6 7 8 10111213141516171819202122230510202530354045集群标签库存数量图3。DBHT团簇的ICB超导体组成。x轴代表集群标签,y轴代表每个集群中的股票数量。每种颜色对应一个ICB超级扇区(左侧的图例)。通过移除市场模式,使用去趋势化的日志返回来获得聚类。未去渲染的情况见S1文件中的图S3。(第17组)、零售(第9组)、医疗(第22组和第23组)、食品和饮料(第20组和第21组)、个人和家居用品(第21组)、工业品和服务(第12组和第16组)、保险(第11组)和电信(第19组)。此外,还有一些集群虽然呈现出不一致的组成,但由严格相关的超级部门组成:集群5和6由银行、金融服务和保险组成,所有超级部门都是ICB在同一行业(金融)的上级层级聚集的。

18
nandehutu2022 在职认证  发表于 2022-5-6 06:59:18
同样,第21集群完全由食品和饮料以及个人和家居用品库存组成,这两类库存都属于消费品行业。其他聚类组合我们对相同的数据应用了其他聚类方法,并将结果与DBHT聚类进行了比较。考虑的聚类方法有单连锁法(SL)、平均连锁法(AL)、完全连锁法(CL)和k-medoids。与DBHT不同的是,对于这些方法来说,簇的数量是一个自由参数,在这种情况下,簇的数量被选择为23,以便将条形图与图3中的DBHT进行比较。我们在图4 a)、b)、c)和d)中绘制了通过使用这四种聚类方法(即SL、AL、CL和k-medoids)获得的簇组成。至于DBHT,SI中讨论了使用非DetrendLog返回进行的相同分析。首先,我们可以观察到,对于SL来说,集群的大小具有很强的异质性,存在一个包含318个股票的巨大集群,而其他集群仅由一个、两个或三个股票组成。这个巨大的集群包含所有ICB行业的股票。AL案例显示了一个更结构化的集群:最大集群的规模缩小到58只股票,出现了6个不同的中等规模集群(20-40只股票)。此外,这些簇显示出比SL更高的超分子过度表达,例如技术(簇4),工业品和1 2 3 4 5 6 7 8 9 101112131415161718192021222305010015020025035050集群标签单链号a)1 2 3 4 5 6 8 10111213141516171819202122230102030405060集群标签库存链号b)1 2 3 5 6 8 10111213141516171819202122305035集群标签完整链号c)1 2 3 4 6 81011121314151617181920212223051015202530354045k medoidsCluster LABEL股票编号SD)图4。根据ICB超导体的聚类组成。

19
nandehutu2022 在职认证  发表于 2022-5-6 06:59:21
x轴代表集群标签,y轴代表每个集群中的股票数量。每种颜色对应一个ICB超级扇区(图例与图3相同)。图中显示了a)SL聚类、b)AL聚类、c)CL聚类和d)k-medoid聚类的结果。通过移除市场模式,使用去趋势化的日志返回来获得聚类。服务业(第5组和第15组)、媒体业(第3组)和金融相关主管(第23组)。然而,仍然有10个集群,其规模最多为4只股票。对于CL和k-medoids,超片段的过度表达得到进一步改善,与DBHT一样丰富。特别是CL显示了技术(集群2)、工业产品和服务(集群4和8)、公用事业(集群17)、石油和天然气(集群23)、医疗保健(集群14)和金融服务(集群9)的过度表达。在k-medoids病例中也发现了类似的过度表达。然而,这些第一次比较是在DBHT给出的集群数量(23)的特定选择下进行的。人们可能想知道改变这个参数会发生什么,即沿着每个聚类方法提供的层次结构移动。让我们强调一下,DBHT方法自动给出了簇的数量,这是其他方法的一个可调参数。然而,DBHT也可以通过在聚类层次结构上设置阈值来分析不同数量的聚类。在接下来的章节中,我们将讨论一系列定量分析,探讨DBHT和其他聚类方法的所有层次。聚类差异大小100 200 300 40002468Ncly a)k-Medoids完整链接单链接平均链接bHT0 100 200 300 40002468Ncly b)k-Medoids完整链接单链接平均链接bHT0图5。证明不同的聚类方法在聚类结构中表现出不同程度的差异。

20
可人4 在职认证  发表于 2022-5-6 06:59:24
对于a)非去趋势对数回归和b)去趋势对数回归,在树状图中,差异度量y显示为不同层次的聚类作为NCL的函数。在上一节中,我们已经看到SL显示了一个包含90%以上库存的巨大集群,而DBHT、CL和k-medoids方法具有更均匀的集群大小分布,而AL似乎是一个中间案例。让我们在这里检查一下,结构中的这种差异是否取决于链接方法的聚类数量的选择,这可能会对SL相对于其他方法造成惩罚。为了做到这一点,我们通过在不同水平上切割树状图来改变每种聚类方法的聚类数。对于没有树状图的k-medoids,NCL只是算法的输入参数。然后,我们计算方法(等式4)中引入的视差度量。在图5中,我们展示了每种聚类方法的视差度量如何随Ncl而变化。图a)显示未去渲染的情况,图b)去渲染的情况。正如我们所看到的,无论Ncl如何,SL在这两种情况下都提供了更大的差异,随后是AL、CL和k-medoids。DBHT值低于所有值,这意味着DBHT聚类在相关层次的任何级别都提供了更同质的社区分配。此外,在市场模式的情况下,SL和THAL在50-100区间内显示出NCL的最大差异值。相反,CL和DBHT有一种流动模式,最高值出现在较低的Ncl值中。查看去趋势酪蛋白(图5 b),去除市场模式也会平滑AL的模式,而SL则更加清晰。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-1 20:13