楼主: nandehutu2022
1337 47

[量化金融] 公司支付网络和信用风险评级 [推广有奖]

21
可人4 在职认证  发表于 2022-6-1 18:01:40
最后,正如前面关于分类的小节所示,考虑整个网络可能会产生误导,尤其是在不考虑权重的情况下查看连接时,因为这对于某些度量是必要的。2.3.1模块化结构推断网络中模块化结构的标准方法之一是通过模块化最大化。该方法将节点划分为称为模块的子集,这样节点与同一模块中的其他节点连接良好,并且与其他模块中节点的链接数量较少。在模C中给定一个分区P,其模性为q=2mXC∈PXi,j∈CAij公司-kinikoutj2m(2) 其中,Aijis是邻接矩阵的(i,j)元素,kini(kouti)是节点i的入(出)度。最佳划分是模块化最大化的划分。尽管有associatedLMHLMHFigure 4:三个分区中的评级分布,模块化(顶部),层次结构(底部)。虚线是整个样本中节点之间评分的无条件(空)分布。完整标记表示零分布的上方(虚线上方)或下方(虚线下方)表示在1%显著水平的超几何测试中具有统计学意义,并进行Bonferroni校正。优化问题是近似解存在的NP难、快速和可靠的启发式算法,这里采用了著名的Louvain方法【Blondel等人,2008年】。每个月,我们都会发现最佳分区大约有2000个模块。这些网络在规模上确实是异构的:例如,13个最大的网络覆盖了网络中95%以上的节点。我们在至少500个已知评级的每个模块中对风险非均匀分布的无效假设进行超几何检验。这些数字不到1%,大约每月19人。(详见B.3表10)。

22
大多数88 在职认证  发表于 2022-6-1 18:01:43
这些显然是非常大的模块,但其中相当一部分显示了一个或两个风险类别的过度表达或不足表达。对于某些特定模块,可以对其风险报告得出可靠的统计结论。图4的顶部面板显示了1月份最大模块的过度表示或不足表示。例如,第七个模块对低风险企业的描述过高,而对其他两个风险企业的描述过低,因此它代表了低风险企业的增长。相反,第八个模块中高风险企业的代表性过高,低风险企业的代表性过低,这可能会给银行带来损失。2.3.2层次结构我们现在明确考虑支付图的有向性和网络的层次结构。有序分区是这样的:每个子集都与一个整数(秩)r相关联∈ {1,…,M}。如果节点更有可能链接到其他级别更高的节点(如军事组织或行政部门),则图具有层次结构。寻找最优有序划分并揭示图的层次结构通常很复杂,需要最小化合适的成本函数,这与模块化类似。在本文中,我们使用了最近提出的成本函数【Gupte等人,2011年】。给定rankfunction r:V→ {1,…,M},代价函数惩罚从高阶节点到低阶节点的链接。惩罚是等级之间差异的线性函数。

23
何人来此 在职认证  发表于 2022-6-1 18:01:46
通过求解优化问题,得到了最优的层次划分*= minr公司∈RX(u,v)∈Ef(r(u)- r(v)),其中r表示所有有序分区的集合,且成本函数isf(x)=(x+1 x≥ 00 x<0。图的层次结构由H定义*(G) =1-A.*m、 定义,h∈ [0,1],0是只有一个集合的平凡划分的值,而h=1是在网络是有向无环图且表示完美层次结构时获得的。惩罚函数的线性选择很方便,因为相关优化在多项式时间内是可解的,并且几乎不存在精确算法【Gupte等人,2011年,Tatti,2017年】,而非线性形式可能导致NP难问题。我们将层次检测应用于每月支付网络,结果汇总在B.3的表11中。首先,我们注意到,推断类的数量大约为18个,远低于模块化情况。此外,类的大小更加均匀。h的值也相当稳定,约为0.75,表明存在着一个很强的层次结构,考虑到我们只研究客户网络,这是一个显著的结果。现在,我们考虑了风险在每个类别中的分布,并研究了某些级别风险的过度表达或不足表达,作为该类别在推断层次结构中排名的函数。该测试拒绝了大量次的统一风险分布的零假设(也与分区中的子集总数进行了比较)。如图4底部面板所示,低级别的公司过度表达了高风险和中等风险的公司,而中低级别的公司(即∈ [8,12])低风险企业过度表达,中风险和高风险企业表达不足。

24
mingdashike22 在职认证  发表于 2022-6-1 18:01:49
本经验证据中给出了测试结果的更多细节,可能表明存在风险传播途径,因为低级别企业通常风险更高,而高级别企业的支付方风险更低。现在,我们考虑了风险在每个类别中的分布,并研究了在推断的层次结构中,作为类别等级的函数,某些级别的风险的过度或不足表达。该测试多次拒绝了一致风险分布的零假设(也与分区中的子分区总数相比)。如图4底部面板所示,低级别的公司过度表达了高风险和中等风险的公司,而中低级别的公司(即∈ [8、12])低风险企业过度表达,中高风险企业表达不足。该实证证据中给出了测试结果的更多细节,可能表明存在风险传播路径,因为低级别企业通常风险更高,而高级别企业的支付方风险更低。现在,我们考虑风险在每个类别中的分布,并研究某些级别的风险的过度或不足表达,作为该类别在推断层次结构中排名的函数。该测试多次拒绝了统一风险分布的零假设(也与分区中的子集总数相比)。如图4的底部面板所示,低等级的高风险和中等风险企业过度表达,而中低等级的企业(即r∈ [8,12])低风险企业过度表达,中风险和高风险企业表达不足。有关测试结果的更多详细信息,请参见B.3中的11。

25
kedemingshi 在职认证  发表于 2022-6-1 18:01:52
这一经验证据可能表明存在风险传播途径,因为低级别企业通常风险更高,是高级别企业的付款人,而高级别企业的风险更低。2.4讨论两个调查分区都对风险与网络结构之间的关系提供了有趣的见解。一方面,模块化划分情况下被拒绝测试的百分比与观察到的风险分类一致。可能会注意到,低风险业务合作伙伴参考并不总是一个现实的选择,因为在某些行业,由于地理原因,业务合作伙伴是不可替代的。为了更好地评估这一点,一种可能是将模块和公司地理位置之间的比较包括在内,这对我们来说是不可用的。另一方面,等级划分似乎更好地遵循风险分布,这可能与第2.2小节中描述的距离相关的风险的特定条件分布有关。事实上,鉴于高风险节点在较长距离内的代表性过高,它们应该位于排名的极端位置,无论是在顶部还是底部,这就是观察到的情况。必须强调的是,在这里选择的两种方法中,一种并不排除另一种,因为它们为解释提供了不同和互补的观点。从这个意义上讲,需要一个多维度的视角,其中维度是有利于或不利于建立业务关系的机制。3使用支付网络数据进行缺失评级预测在前几节中,我们表明网络指标可以为企业风险提供信息。

26
大多数88 在职认证  发表于 2022-6-1 18:01:56
因此,人们很自然会问,是否可以仅使用相应节点的网络特征以及相邻企业的风险评级信息来预测企业的缺失风险率。这个问题尤其相关,因为我们注意到数据集中大约30%的客户没有评级,如果考虑整个数据集,这个百分比甚至更高(见a.1中的表4)。在这里,我们使用网络特征作为缺失评分的预测因子,将其引入到众所周知的分类问题机器学习方法中。我们使用的预测因子如下:i.内外度;二。具有给定评级(H、M、L或NA)的(内外)邻居的加权分数iii.通过痛苦最小化推断的等级中的等级;iv.通过模块化最大化推断出的社区成员;v、 输入和输出强度之和。(ii)中的分数计算时考虑每笔付款的金额(权重),并将其作为评级分类的衡量标准,而(v.)是规模的代表。数据在【Friedman等人,2001年】之后进行预处理,以便变量在量级上具有可比性,详见附录C.1。这些转换导致总共有25个预测值。数据集仅包括客户,我们考虑1月份的月度网络。为了评估预测的性能,我们使用75%的数据对每个模型进行训练,剩下的25%用于测试。我们考虑三种分类方法:i.多项式logistic;二。分类树;iii.神经网络。参见【Friedman等人,2001年】,了解这些方法的回顾。H类在样本中的代表性不足,因为它只包括大约10%的评级公司。这会影响任何分级人员恢复该等级的能力。

27
nandehutu2022 在职认证  发表于 2022-6-1 18:01:59
这是不可取的,因为H类对风险最为关键。为了解决这个问题,我们对所有三种方法采取了两步分类策略。这一策略背后的直觉是,在第一步培训一名更专业的分类师,在第一步恢复一个特定类别,然后在第二步分离其余类别。在第一步中,我们确定了一个风险类别,例如L,并将其他两个类别合并为一个实际类别x。我们在修改后的数据库中确定了所选模型的第一个实例。在第二步中,我们只在之前的两个合并类上训练模型的另一个实例。这对所有三个风险等级都是重复的。如果选择H类作为第一步,我们在培训前应用SMOTE【Chawla等人,2002年】,这是一种众所周知的数据重新平衡算法。。一旦对模型进行了训练,就可以通过对每个风险类别(参见图5中的示意图)迭代以下两个步骤来获得预测。i.应用第一步分类器;二。如果条目分类为X,则应用第二步分类。图5:两步分类的示意图最终预测是预测的中位数。在抽签的情况下,当类别从第一个实例中获得时,会给出更多的权重(因为分类师更专业)。对于两步法,可通过以下方式确定随机分类:通过考虑实际类别,获得每个分类第一步的完整分布,并在第二步仅考虑之前合并的两个类别。表2显示了每个分类的结果,以及为随机分类计算的相同度量值。

28
大多数88 在职认证  发表于 2022-6-1 18:02:02
在分类树和神经网络的情况下,对超参数的不同组合进行了测试(如树的深度、神经网络的隐藏层数量和大小),这里我们给出了每个模型的最佳选择结果,并在补充信息中解释了选择过程。这三个模型的行为非常相似,神经网络的整体性能略好,训练时间也相当。必须注意的是,如果目标是使用分类作为第一过滤器来检测可能的关键节点,那么在一步分类中使用SMOTE的预测也将是一种选择。然而,我们发现,分类机构的整体绩效相当差,尤其是考虑到将其分类为高风险(H)和信誉良好(L)的成本时。表2:两步分类法的准确度和召回率。R: 随机,ML:多项式logistic,CT:分类树,NN:神经网络。方法准确度重新调用M Hrandom 1步0.413 0.438 0.625 0.108随机2步0.366 0.368 0.391 0.249多项式逻辑0.477 0.553 0.452 0.253分类树0.496 0.502 0.567 0.151神经网络0.505 0.526 0.559 0.166仅包括网络推导的指标,而资产负债表中的任何数据可能代表风险评级模型的主要来源,不包括部门或地理位置。如果将经济部门作为进一步的预测因素,这是我们唯一可用的数据,预测能力仅从49%略微提高到49%- 分类树和神经网络的准确率都在50%到52%左右。由于完全缺乏专有评级模型中使用的数据,自然基准模型是一步和两步随机分类。

29
mingdashike22 在职认证  发表于 2022-6-1 18:02:05
我们能够在准确性方面比第一个高出30%至38%,后者高出15%至22%,特别是在神经网络的情况下,我们能够找到一个很好的折衷方案,对H.4结论进行回忆。在本文中,我们通过对交易数据构建的支付网络的调查,实证研究了200万意大利企业的相互作用和风险分布。我们的贡献是三倍的。一方面,以前从未对大量企业与我们所知之间的关系进行过实证研究,尤其是在这种粒度下。对网络结构的研究突出了企业之间复杂的相互依赖关系;事实上,特别令人感兴趣的是,大多数交易都涉及相对较小的核心企业。这一特征,再加上连接数量和企业交换的总容量的幂律分布,可能是一种有利于痛苦传播或积极反馈的架构的症状。此外,观察到的大型、关系良好的企业与小型(就交易量而言)关系不良的企业的趋势也很相关。这可能是大型生产商与其子公司之间几乎排斥关系的结果。第二个也是主要贡献是评估网络结构与风险分布之间的相关性。从我们的分析中,我们可以得出结论,企业的风险水平与其在不同层面的网络特征和角色相关。对于单个企业,我们观察到,低风险企业更有可能拥有大量的连接,其中一些企业充当整个网络的枢纽,与数千家其他企业连接。当考虑成对的关联企业时,我们观察到倾向于与风险水平相同的企业建立联系。

30
kedemingshi 在职认证  发表于 2022-6-1 18:02:08
这种趋势也可以在更聚合的层面上观察到。事实上,我们还发现,与网络其他部分联系更紧密的企业群体,其风险的局部分布在统计上不同于全球分布,这意味着某些风险类别的代表性过高或过低。最后,我们将公司划分为一个层级组织,以突出资金流通的主要方向。这种简化的结构再次表明,许多层级的局部风险分布在统计学上不同于全球风险分布。由于高风险企业在资金流动初期的代表性过高,这可能会导致整个系统陷入困境。最后,我们证明了网络度量和社区可以成功地使用机器学习模型预测缺失的评分。我们提出了一个简单的两步策略,在最小但风险最大的类别上,在总体准确率和召回率之间进行折衷。我们用三种方法测试我们的策略,即多项式逻辑、分类控制和神经网络。由于预测值均为网络衍生量,且未使用资产负债表或其他元数据中的信息,因此随机评级分配是自然基准。我们发现,所有这三种方法都能够显著优于基准,神经网络的结果略好。致谢我们要感谢联合信贷银行研发团队的Ilaria Bordino、Francesco Gullo、Francesco Montecuccoli degli Erri、Marcello Paris和Stefano Pascolutti进行了有益的讨论并提供了技术支持。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 11:16