楼主: kedemingshi
2871 114

[量化金融] 网络重构方法:经济与金融案例 [推广有奖]

61
能者818 在职认证  发表于 2022-6-10 04:42:23
表示通过给定重建方法a获得的单个网络,对于每个节点对,可能有四种不同的备选方案:a)^aij=aij=1:在这种情况下,已正确预测观察到的链路(我们有一个真正的正值);b) ^aij=1,但aij=0:在这种情况下,观察到的链接被错误预测为缺失(我们有一个假阴性);c) ^aij=aij=0:在这种情况下,一个缺失的链接已被正确预测(我们有一个真正的负面);d) ^aij=0但aij=1:在这种情况下,丢失的链接被错误地预测为存在(我们有一个假阳性)。这四个类别中的一个类别内的事件总数可以直接计算如下:T P=1(^AoA) 1T,(96)F N=1(^Ao(一)-A) 1T,(97)图5:2003年观察到的eMID网络邻接矩阵(顶部面板)与根据第3.5.6节(底部面板)中描述的最小密度法重建的eMID网络邻接矩阵之间的比较。左侧面板表示二进制邻接矩阵,黑色/白色表示存在/不存在连接,而右侧面板表示加权邻接矩阵,颜色强度表示连接的权重。T N=1((I-^A)o(一)-A) )1T,(98)F P=1((I-^A)oA) 1T(99),其中符号o 表示两个矩阵的元素乘积,1=(1,1…1)是第N维行向量,其条目均为1,I是N×N矩阵,其通用条目为Iij=1-δi,j。例如,真正读数的总数T P=PiPj(6=i)^aijaij。请注意,由于这四个索引总计为节点总数N,因此其中只有三个是独立的。特别是,后三个可以用tp紧凑地重写。

62
可人4 在职认证  发表于 2022-6-10 04:42:26
我们有F N=PiPj(6=i)^aij(1-aij)=^L- T P,T N=PiPj(6=i)(1- ^aij)(1- aij)=N(N- 1) - L-^L+T P和f P=PiPj(6=i)(1-^aij)aij=L-T P,其中^L和L分别是观察到的和重建的网络中的链路总数。上述四个指数提供的绝对数本身是有限的。这就是为什么将T P、F N、T N和F P isoften提供的信息结合起来定义“相对”指数的原因。第一个是灵敏度(或真阳性率)[122],定义了ASTP R=T PT P+F N=T P^L(100),并量化了正确恢复的观察链接的百分比。请注意,对于性能而言,重建方法被认为是令人满意的,P R值接近1的条件是必要的,但不是有效的。事实上,高估链路数量的方法通过构造实现了较高的T P R值(对于完全连接的重建网络,定义为T P R=1),但也缺乏识别缺失连接的能力。后者由特定城市(或真实负利率)[122]量化,定义为C=T NF P+T N=T NN(N- 1) -^L(101),即观察到的正确恢复的缺失链接的百分比。假阳性率F P R=1- SP C是SP C的补充指数【122】。因此,直观地说,任何“好的”重建算法的特点都应该是T P R值大而F P R值低(即,其性能越好,T P R指数越接近1,F P R指数越接近0)。这一观察结果导致了经典的“图形”方式,通过将其表示为坐标(0,0),(0,1),(1,1),(1,0)单位平方内的坐标点(F P R,T P R),来可视化分类器的性能。

63
大多数88 在职认证  发表于 2022-6-10 04:42:29
因此,任何完美的分类都可以在正方形的左上角找到,而随机分类(预测相同数量的现有链接和缺失链接)位于其主对角线上。给定重建算法的性能可以量化为曲线下面积(AUC)[122],由三个坐标点(0,0),(F P R,T P R),(1,1)确定。然后,完美分类的特征是anAUC为1,随机分类的AUC为1/2,一般而言,非随机分类的AUC为1/2≤ 1、评估重建方法性能的另一种方法是绘制其T P R与第四个指数、其精度(或正预测值)[122]P P V=T PT P+F P=T PL(102),其测量正确放置的链接相对于预测链接总数的百分比。换句话说,P-P-V指数量化了给定类别的“能力”,即仅预测真正的积极因素。因此,与T P R相反,通过密集重建方法无法获得大P P V。最后,我们考虑一个指数来衡量分类师在正确放置1和0方面的总体表现:准确度[123],定义为acc=T P+T NT P+T N+F P+F N=T P+T NN(N- 1). (103)每当重建方法确定候选矩阵的整个集合时,上述数量必须作为该集合的平均值进行评估。这可以用等式表示。(96-99),平均数量haiji=pijand hAi=P,而不是对应于单个实现aijand a的数量:hT P i=1(^aoP) 1T,(104)hF Ni=1(^Ao(一)-P) )1T,(105)hT Ni=1((I-^A)o(一)-P) )1T,(106)hF P i=1((i-^A)oP) 1吨。(107)使用集合平均值,可以更好地定量讨论密集和稀疏重建方法之间的差异。

64
可人4 在职认证  发表于 2022-6-10 04:42:32
MaxEnt是密集重建算法的代表,它满足了haMEiji=pij=p’1的关系 6=j,导致HT PMEi’L和hF PMEi’N(N- 1) -因此,hP P VMEi’L/N(N- 1) ,即该方法的功效与网络密度一致。为了充分理解这一结果的重要性,我们现在考虑有向随机图模型(DRGM),该模型由规定Pij=p=^L/N(N- 1) i 6=j。我们有hT P RDRGMi=hF P RDRGMi=P,最重要的是hP P VDRGMi=P。换句话说,“随机”分类器不一定是以1/2的概率猜测每个条目的(二进制)值的算法:更一般而言,它是由DRGM配方定义的重建方法,其P V代表任何重建算法的下限。请注意,MaxEnt方法达到了该值,因此确认了其性能的弱点,除非考虑到非常密集的配置,因为hACCMEi=p。其他广泛用于衡量重建算法优劣的指标有汉明距离H、Jaccard相似性J、余弦相似性θ、Jensen-Shannon散度JS,在^A和A之间【124】。值得注意的是,每当处理二元矩阵时,这些指数都可以用四个基本量T P,F N,T N,F P重写:H=F N+F P,(109)J=T PF N+T N+F P,(110)θ=T P^L,(111)JS=F N^Lln(2^L)+F P2Lln(2L)-T P^L+L^LL!ln^L+L^LL!-ln(^LL)(112)(每当必须考虑整个配置集合时,必须相应地对上述表达式进行平均)。进一步说,为了测试给定算法在重建权重方面的有效性,一种诱人的可能性是简单地将二进制情况中定义的一些度量扩展到加权情况。

65
可人4 在职认证  发表于 2022-6-10 04:42:35
然而,entries的非二进制性质使得很难设计出最佳选择。然而,最常用的度量是余弦相似性的加权对应项[80124],读数为θw=1(^woW) 1T | |^W | | | | | | W | |(113)带| | |……| |表示透镜方向的矩阵范数。换言之,这两个矩阵被视为实数向量,其重叠由一个有效角近似,其值范围为-1表示最大不相似性到+1表示精确相似性,0表示不存在相关性。其他指数为透镜方向矩阵距离[93],分别定义为| | W-W | |=NXi=1NXj(6=i)=1 | wij- wij |,(114)| | W-W | |=VuTunxi=1NXj(6=i)=1(^wij- wij)(115)和所谓的“误差测量”【115】读数 =PNi=1PNj=1 |^wij- wij | PNi=1PNj=1wij。(116)当考虑系综方法时,在用hWi代替W后,仍然可以使用等式(113)-(116)。然而,请注意,类范数数量的主要缺点在于它们是无界的,这使得很难使用它们来比较不同的候选矩阵。4.2. 拓扑指标第二组指标由拓扑性质的数量表示,提供所考虑网络的“粗粒度”描述,如度度关联和中尺度群落结构。4.2.1. 测试权重重建将观察到的权重与其对应的ImageMate进行比较最直接的方法是散点图。然而,为了始终只比较实现的连接,最好分散(实现)观察到的权重与条件权重shwij | aij=1i=hwijipij(117),这在某种程度上编码了(可用的)结构信息。

66
能者818 在职认证  发表于 2022-6-10 04:42:38
这一规定对于比较生成相同预期权重但预测不同拓扑结构的算法特别有用(例如MaxEnt和一种精确的密度方法)[80]。4.2.2. 测试高阶模式重建除了重建链接权重外,还期望一种良好的重建方法能够产生表征观测网络^G的高阶趋势。为此,通常将一般感兴趣量X(^G)的观测值与重建算法获得的相应预测进行比较。重要的是,无论何时处理集成方法,都必须考虑整个配置集,因此需要找到简洁地描述所有可能(替代)结果的统计指标。最基本和最有用的选择是X的集合平均值和标准差[58],即hxi=XG∈GX(G)P(G),(118)σX=sXG∈G(X(G)- hXi)P(G)。(119)等式的评估。(118)和(119)原则上要求了解整个集合G。由于列出属于集合的所有配置根本不可行,因此可以使用分析或数值技术来解决此问题。在第一种情况下,基于变量预期值周围观察值X(G)的泰勒展开,δ法提供了一种简单的补救方法。它取决于:X(G)=X(hGi)+NXi=1NXj(6=i)=1(gij- hgiji)十、gij公司G=hGi+。(120)方程(120)是“张量”泰勒展开式,因为邻接矩阵g的每个条目都是独立的随机变量。通过取等式(120)两侧的期望值,可以恢复增量法公式,以计算数量X的期望值,即hXi’X(hGi)。(121)然后通过插入等式估计标准偏差σXis。(120-121)转化为等式。

67
能者818 在职认证  发表于 2022-6-10 04:42:41
(119):σX\'vuutNXi=1NXj(6=i)=1NXt=1NXs(6=t)=1Cov[gij,gts]十、gij公司十、gts公司G=hGi。(122)值得注意的是,eqs。(121)和(122)在由度和强度表示的线性约束的情况下是精确的。其他拓扑量的例子,其集合平均值和标准偏差可以精确计算,即所谓的并矢运动,由表达式n定义<->=NXi=1NXj(6=i)=1aijaji,(123)N→=NXi=1NXj(6=i)=1aij(1-aji,(124)N==NXi=1NXj(6=i)=1(1-aij)(1-aji)。(125)考虑到不同的二元数是独立的,上述表达式的期望值和标准偏差为<->i=NXi=1NXj(6=i)=1pijpji,(126)hN→i=NXi=1NXj(6=i)=1pij(1-pji,(127)hN=i=NXi=1NXj(6=i)=1(1-pij)(1-pji)(128)σN<->=NXi=1NXj(6=i)=12pijpji(1-pijpji),(129)σN→=NXi=1NXj(6=i)=1pij(1-pji)[1-pij(1-pji)-pji(1-pij)],(130)σN==NXi=1NXj(6=i)=12(1-pij)(1-pji)[1-(1 -pij)(1-(131)然而,其他数量的问题处理起来就不那么容易了。作为最后手段,可以通过显式采样G进行数值计算。一旦获得(正确采样的)子集G,集合平均值hXi可以通过算术平均值hXi’X=XG来近似∈GX(G)F(G),(132),其中P(G)被采样频率F(G)=NG |G |代替,ngi是样本中邻接矩阵等于G的网络数量。类似地,标准偏差σX等于σX\'sXG∈G(X(G)- 十) F(G)。(133)最后,一旦获得了X的估计值(以及关于其不确定性的一些度量值),就可以通过检查观测值X(^G)是否位于hXi±zσX所界定的区域内来进行X(^G)和hXi之间的比较,设置z以确定所需的统计显著性水平。更简洁地说,这表示为z-scorezX=X(G)- hXiσX(134),以标准偏差为单位测量观测值和期望值之间的差异。

68
nandehutu2022 在职认证  发表于 2022-6-10 04:42:44
数值接近于零的z分数表示所选重建算法生成的X期望值与观测值足够接近:更一般而言,只要| z |≤ zth(zthu通常为1、2或3),这两个值之间的差异不能被认为是显著的(置信区间分别为0.683、0.954和0.997)。无论何时处理ERG形式主义中定义的模型,这进一步意味着实际网络^G的结构(由数量X代理)完全由(编码到中的拓扑信息)施加的约束来解释。相反,如果| z |>z,则观测值X(^G)位于所选置信区间之外:确定X的观测网络的结构不能完全由施加的规范约束解释,应使用进一步的模型规范(即附加或更复杂的约束)[58126]。4.2.3. 什么可以重建,什么不可以重建即使给定的方法不能很好地重建观测网络,了解它能提供什么样的信息也是有用的。为此,让我们再次考虑z分数。当zXis显著为正时,表示Xis在^G中的代表性过高,这意味着所分析的网络显示出正向趋势。例如,链状基序在食物网中非常丰富(即,它们比预期的更常见)。类似地,每当z分数假定所考虑的随机变量为高斯分布时。如果预计偏离该假设,则应采用不同的统计检验。z得分显著为负,X表示不足。

69
nandehutu2022 在职认证  发表于 2022-6-10 04:42:48
同样,在食物网的情况下,环状图案明显缺失(即,发现的频率低于预期)。z分数(以及一般的统计测试)还提供了有关给定网络持续结构变化的信息。一个特别有趣的问题是检测即将发生的关键事件的早期警告信号。如【127】所示,这可以通过计算所考虑系统的每个时间快照的zx来实现,然后绘制zx(t)与t。只要观察值和预期值之间的差异“平稳”地从失衡状态演变为平衡状态(反之亦然),就可能检测到早期警告信号【128,129】,毫无疑问,要测试网络统计重要性的一个重要方面是将其中尺度组织成模块或社区。类似于前一小节所述的方法如下所示【130】。假设我们知道网络的社区组织,其特征是∧总社区内链接和∏社区内节点对。具有N个节点和L个链路的随机网络至少具有∧和∏这些值的概率源自urnmodel,无需重新插入,因此由逆累积超几何分布∑=LXl=∧给出∏lN(N-1)-∏L-lN(N-1) L. (135)因此,∑的值越小(称为惊喜),所考虑网络的中尺度组织就越重要【130】。随机块体模型(SBM)[131]及其度校正版本(dcSBM)[132]为中尺度结构提供了更多重新定义的基准。【133】研究了这些模型在经济和金融网络中再现区块结构的有效性。特别是,这些模型允许在两种可选的分区结构之间进行插值:核心-外围和二分体。

70
mingdashike22 在职认证  发表于 2022-6-10 04:42:51
在银行间网络的背景下,核心-外围结构表示存在一组核心银行作为外围银行之间的中介机构,而双边结构则表示中介机构自由市场,银行根据其对交易对手的偏好进行(独家)交易【134】。以m块结构为特征的网络配置可以用m×m对称矩阵表示,称为单位矩阵,其条目表示模块内和模块之间的链接密度:a=ρggρgg。ρggmρggρgg。ρggm。。。。。。。。。。。。ρggmρggm。ρgmgm.使用这种表示法,SBM和dcSBM分别假设任意两个节点i和j之间的连接概率为psbmij=ρgigj,pdcSBMij=ρgigjxixj,(136)在【127】中,监测数量正是二元基序的丰度,X=N<->, N→, N=。其中xi是控制泛型节点i度的参数。改变模型参数后,可以生成一系列不同的拓扑。在只有两个块和g的dcSBM的简单情况下,【133】的作者施加了一种“背景”二部结构,ρgg>ρgg=ρgg,同时逐步提高属于gand的节点的异质性程度。在运行abelief传播(BP)算法[135136]时,网络L(A | ~ x)=ln的可能性NYi=1NYj(<i)=1paijij(1-pij)1-aij公司(137)强调了从纯二分结构到纯核心-外围结构的过渡。通过比较似然函数lbpw的数值与lsbm和LdcSBM的数值来进行一致性检查。如果生成模型已知,这种转变并不奇怪。然而,在研究现实世界的网络时,必须采取一些谨慎措施。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 02:37