楼主: 能者818
1357 28

[量化金融] 多样性及其分解为多样性、平衡性和差异性 [推广有奖]

11
能者818 在职认证  发表于 2022-6-14 05:12:24
β多样性表示每个地块之间的多样性,反映了每个地块之间物种组成差异的结果。森林的γ多样性可以乘法分解为独立的α和β成分,即Dγ=DαDβ[9]。在同源森林中,所有样地的物种组成大致相同,样地多样性Dα内的平均值与所有样地的多样性Dγ接近。因此,图间差异Dβ将接近1。另一方面,在异质森林中,每个样地的物种组成非常不同,只包含总多样性的一小部分,因此Dα远小于Dγ,导致Dβ的值更高。Dβ反映了所需的不同图的数量,每个图具有多样性Dα,以获得Dγ的混合多样性。Dβ的最大值由Dγ给出,对应于每个地块由唯一物种组成的情况(Dα=1)。因此,β多样性从下方被1和从上方被byDγ所限制。注意,上面描述的情况与图1中的示例相对应,其中图表示感兴趣的类型(单词),而物种表示这些类型(字母)的一些特征特征。图2给出了示例中每个多样性的值。在此设置中,γ多样性表示特征的总多样性,α多样性表示类型内特征的平均多样性。然后,β多样性表示基于类型组成的异质性的“类型间”多样性。它给出了当类型之间没有特征重叠时,获得特征Dγ总多样性所需的多样性类型Dα的数量。

12
nandehutu2022 在职认证  发表于 2022-6-14 05:12:27
因此,它可以被解释为“成分单位数量”的一种度量,给出了当类型不具有任何特征且数量相等时,将出现的有效类型数量【22】。就类型和特征而言,框架Dβ提供了一个类型多样性的度量,该度量考虑了类型之间特征重叠所给出的多样性、平衡性和差异性。衡量行业多样性这里,通过一个实证例子,介绍了所提出的多样性衡量的一般应用。其目的是量化美国的产业多样性,在美国,产业的显著特征被认为是其雇佣的不同职业。美国α-多样性β-多样性γ-多样性效应。数字α(S)Dβ(S)Dγ(S)D(S)A 3 9 3B 3 2.08 6.24 3C 3 1.89 5.67 3图2:图1所示三个示例的α、β和γ差异值。一个行业内职业的平均多样性,Dα(S)在所有三个例子中都是相等的,因为每个行业都雇用三种不同的职业,其权重相等,所有行业的份额相等。属性Dγ(S)的总多样性由所有行业中的有效职业数以及每种情况下的差异给出。这也导致Dβ(S)的不同值。为完整性起见,还包括行业的有效数量D(S),当人们假设它们完全不同时,表示行业的多样性。人口普查数据摘自IPUMS-USA【18】,从1850年到2010年,每十年提供美国总人口的1%样本。数据包含每个人的职业∈ S和行业j∈ S、 使用的分类包括269个职业类型和147个行业类型。数据被解释为图1所示的加权二部网络,节点i位于职业层S,节点j位于行业层。

13
kedemingshi 在职认证  发表于 2022-6-14 05:12:30
节点i和j之间的边权重由在职业i和行业j中工作的QIjj人数给出。节点i的强度由qi=Pjqijand给出,代表职业i中的总就业人数,类似地,qjdenotes代表行业j中的总就业人数。通过总人数Q=Pijqijgives将数量qi、qjand和Qijb标准化,从而提高相对频率pij=qijQ,pi=Qiq,pj=Qjq。每个相对频率可依次解释为代表随机抽样人员职业或行业类型的随机变量的概率分布,即pi=P(X=i),pj=P(Y=j)和Pij=P(X=i,Y=j)。使用Hill数,行业和职业的有效数量可以分别表示为D(S)=eH(Y)和D(S)=eH(X)。为了获得一个行业中有效的职业数量,考虑到1980年和1990年,我们给出了5%的样本。此外,请注意,所提供的分析是为了说明目的,因此这里不考虑进一步的数据清理和一致性问题。相对频率pi | j=行业j中职业i的qijqjof。然后,行业j的职业多样性由byD(Sj)=eH(X | j)=ePipi | jlog(pi | j)给出。行业多样性内的平均值由[9]Dα(S)=eH(X | Y)=e给出-PjpjPipi | jlog(pi | j),其中H(X | Y)是给定Y的X的条件熵。最后,withinindustry多样性Dβ是将总体职业多样性Dγ(S)乘性分解为其α和β成分,从而得出[9]Dβ(S)=Dγ(S)Dα(S)。Dβ(S)可以解释为行业的有效数量,扣除其职业分布的重叠。

14
大多数88 在职认证  发表于 2022-6-14 05:12:33
其单位对应于在分布均匀、不重叠的行业中存在的行业数量,其中Dα和Dγ相同。图3显示了美国行业多样性的时间演变、行业有效数量D(S)(考虑到多样性和平衡)和组成单位数量Dβ(S)(考虑到平衡、多样性和差异)。1950年后,行业的种类(即至少有一名员工的不同行业类型的数量)略有增加,然后有所减少,整个时期的数值在120到140之间。1940年品种突然下降的原因不明,很可能是由于数据不一致。D(S)产业的有效数量显示出更为明显的驼峰状模式,1850年出现了一段多元化时期- 1960年,工业的有效数量从10个增加到大约80个,然后是一段时间的集中。相比之下,自1900年以来,成分单位Dβ(S)的数量呈稳步下降的趋势,其值在10到4个成分单位之间。因此,根据这一衡量标准,过去一个世纪以来,由于各行业在所从事的职业方面越来越相似,产业多样性有所下降。考虑到图3所示的不同多样性,很明显考虑到多样性的不同维度会导致相同数据的不同表示。特别是,只考虑多样性可能会导致对多样性的高估,因为行业分布可能仍然集中在少数行业。

15
大多数88 在职认证  发表于 2022-6-14 05:12:36
此外,如果具有类似职业分布的行业被认为是相同的,那么行业的有效数量仍然是对多样性的高估,因为某些行业在其所雇佣的职业方面可能几乎相同。考虑差异的效果当然取决于考虑哪些特征。也就是说,当考虑到行业的其他特征而不是其职业分布时,多样性可能会增加。因此,这些措施的应用必须由手头的研究问题驱动。然而,这些指标的有趣之处在于,多样性的每个维度可能表现出不同的动态,这在考虑单个多样性指数时是不可见的。此外,多样性的每个维度可能在所考虑的系统中发挥不同的作用。因此,我们将在下一节中分别考虑多样性、平衡性和差异性。3“ABC”分解为了调查多样性、平衡性和差异性在实践中的作用,需要对每种情况分别采取措施。为此,我介绍了“ABC分解”,它将多样性分解为不同的维度。由于β(S)是包含所有三个维度的多样性度量,因此可以通过以下方式获得多样性(a)、平衡(B)和差异(C)的乘法分解:Dβ(S)=DA(S)·DB(S)·DC(S)。(2) 通过简单计数类型inS的数量,或等效地通过阶数q=0的Hill数给出的变化Dai(见附录a)。平衡dBs的计算方法是将S中的有效类型数(考虑平衡和多样性)除以多样性,得出[6]DB(S)=D(S)DA(S)=D(S)n。DB(S)测量类型相对频率分布的均匀性。它取(0,1)中的值,当所有相对频率相等时,最大值为1,即。

16
何人来此 在职认证  发表于 2022-6-14 05:12:40
pi=S中所有类型i。图3:行业组成单位的种类、有效数量和有效数量。随着时间的推移,行业的多样性大致保持不变。行业的有效数量考虑到了多样性和平衡性,并呈现出驼峰状的格局,在这一格局中,最初各行业之间的人口分布变得更加平等,1960年达到了80个有效行业的多样性,并开始重新集中。多样性考虑了行业之间在组成单位方面的职业重叠。1850年,产业多样性相当于大约十个非重叠产业,2000年下降到大约四个组成单位。由于随后确定Dβ(S、DA(S)和D(B),因此可以通过将组成单元Dβ(S)(考虑所有三维)的数量除以有效数asDC(S)=Dβ(S)D(S)=e来获得视差DC(S-H(Y | X)。DC(S)可以被视为多样性和平衡的归一化多样性,留下了差异的度量。它接受(0,1)中的值,当所有类型的特征都没有重叠时,达到最大值。当所有类型具有相同的特征时,可达到最小值。很容易验证(2)适用于DA、DB和DC的这些定义。这种分解允许分别研究多样性的三个维度。多样性Dβ(S)可以被视为多样性DA(S),通过因子DB(S)和DC(S)进行校正,这两者都在0和1之间。反过来,可以通过类别中的总类型数对该变化进行归一化,使其具有0到1之间的值,以便与平衡和差异(作为其最大值的一部分)进行比较。将ABC分解应用于图1中的示例将得到表4中给出的结果。

17
大多数88 在职认证  发表于 2022-6-14 05:12:43
结果表明,正如预期的那样,随着单词之间重叠的增加,差异会减少。建议的度量可以准确地捕捉到随着字母总数减少而出现的差异减少。效果。数字(β-)多样性多样性平衡disparityD(S)Dβ(S)DA(S)DB(S)DC(S)A 3 3 3 1 1B 3 2.08 3 1 0.69C 3 1.89 3 1 0.63图4:图1所示三个示例的ABC分解给出的行业有效数量、组成单元数量和多样性、平衡和差异值。所有这三个例子的多样性和平衡性都是相等的,因为每个行业都有三种不同的职业,而且权重相等。在所有三种情况下,差距都有所不同,对于A而言,差距最大,因为A中的行业之间没有职业重叠。对于B和C,测量结果显示差距较小,因此C的多样性较低,因为C的行业由较少的职业组成。图5显示了应用于美国行业实证示例的ABC分解。它包含与图3相同的信息,但分别显示了变化、平衡和差异的动态。由于多样性的所有维度可能相互独立移动,ABCD组合有助于分析不同系统中每个维度的具体作用。4多元扩展从Hill数的框架来看,多样性与信息论的不确定性概念之间有一个有趣的关系。特别是图5:考虑到行业的职业分布,行业的多样性、平衡性和差异性。多样性通过类别中可能的行业总数进行标准化,即147个。在整个时期内,行业的多样性保持大致不变,平衡显示,截至1960年,行业的多样化,然后是一段重新集中的时期。

18
可人4 在职认证  发表于 2022-6-14 05:12:46
这一差距几乎在整个时期内呈下降趋势,自1980年以来略有增加。β多样性由Dβ(S)=Dγ(S)Dα(S)=eH(X)给出-H(X | Y)=eMI(X,Y),(3),其中M I(X,Y)表示随机变量X和Y之间的互信息。取随机变量X和Y之间互信息的指数,将其转换为相应集合S多样性的度量,对S给出的特征重叠进行贴现。此外,信息论测度的加性分解对应于多样性的乘法分解。互信息是两个随机变量x和Y之间依赖性的度量,由MI(XY)=Pijpijlog给出pijpipj. 它是非负对称的,可以解释为在已知另一个随机变量的结果的情况下,一个随机变量的结果的不确定性的平均减少。考虑到这里的多个特征,我们通过利用多元信息测度之间的加性关系,将diversityDβ推广为考虑多个特征。例如,回到图1中描述的示例,我们可以通过对每个字母进行颜色编码来为每个单词添加一个特征,这样每个单词可以沿两个维度进行区分:颜色和字母。用随机变量X描述字母,用随机变量Y描述颜色,用随机变量Z描述单词,我们可以考虑联合概率pijk=P(X=i,Y=j,Z=k),随机采样的元素是字母i,有颜色j,用于单词k。

19
nandehutu2022 在职认证  发表于 2022-6-14 05:12:49
在网络表示中,联合概率pijk可以被视为连接颜色、字母和单词的超图中节点i、j和k之间超链接的相对频率。根据方程式(3),字母和颜色重叠的单词多样性由dxyβ(S)=eH(XY)给出-H(XY | Z)=eMI(XY,Z),其中H(XY)=-Pijpijlog(pij)是联合分布pij的香农熵,DXY(S)中的上标用于表示相对于XY给出的特征对中的重叠具有多样性。因此,每个颜色字母对都被解释为单词的一个独特特征。考虑其他特征对多样性的影响取决于这些特征所包含的信息。在当前示例中,如果颜色和字母高度相关,将颜色作为第二个特征考虑不会影响多样性。另一方面,当颜色和字母彼此独立时,单词的多样性可能非常大,从而捕获互补信息。由相同字母组成的单词可能包含非常不同的颜色,并且仍然会增加整体的多样性。从数学上讲,这可以通过重写β多样性(见附录B)DXYβ(S)=eMI(X,Z)+MI(Y,Z)来看出-MI(X,Y)+MI(XY | Z),从中可以清楚地看出,当MI(X,Y)给出的特征之间的依赖性增加时,多样性减少。在字母i和颜色j相互独立的极端情况下,我们的MI(X,Y)=0,因此(见附录B)DXYβ(S)=eMI(X,Z)+MI(Y,Z)=DXβ(S)DYβ(S),其中DXβ(S)和DYβ(S)分别表示单词相对于随机变量X和Y描述的特性的多样性。

20
大多数88 在职认证  发表于 2022-6-14 05:12:52
因此,当特征是独立的时,可以通过将分别考虑特征的多样性相乘来确定考虑特征对的多样性。当从包含多个特征的高维数据集估计多样性时,这样的结果可能是有用的和相关的。例如,人们可以考虑行业的多样性,不仅要考虑职业,还要考虑行业从业人员的教育水平,将其作为一个显著特征。如果教育专业和职业不相关,这种多样性等于分别考虑职业和教育专业的多样性的乘积。聚合另一个有趣的解释是,将类型视为特征S的聚合。因此,在这种设置中,单词被视为聚合字母的特定方式。这些单词可以进一步聚合成句子,有效地在图1所示的二分网络上“添加一层”。在这种情况下,根据目前的框架,句子的多样性取决于单词的组成,而不是字母的组成。关键假设是聚合的两个步骤相互独立,即单词如何聚合成句子独立于howletter如何聚合成单词。在上述情况下,字母和单词之间的联系由联合分布Pijan给出,单词和句子之间的联系由pjk给出,其中k是句子的索引,i是字母的索引,j是单词的索引。字母-单词-句子三元组的概率由pijk=pijpk | j给出。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 12:32