楼主: mingdashike22
2494 82

[量化金融] 走向稳健的预警模型:赛马、团队和模型 [推广有奖]

21
kedemingshi 在职认证  发表于 2022-5-7 08:49:34
用于推导预警模型的方法已被纳入图1的背景中,表4对在预警活动中应用这些方法的论文进行了审查。下面将详细介绍这些方法。信号提取。Kaminsky等人[51]介绍的信号提取方法简单地分析了指示器的水平,如果该值超过规定的阈值,就会发出信号。为了发出二进制信号,我们将阈值指定为优化分类性能的阈值,这在这里是用相对有用性来衡量的[50]。然而,这种方法的主要局限性在于,它不允许指标之间的任何交互作用或权重,而优点是它可以更直接地衡量重要性,并提供每个指标的排名。尽管如此,它还是最常用的预警技术之一。线性判别分析(LDA)。由Fisher[36]介绍的LDA是统计学中常用的方法,用于将一个因变量表示为一个或多个连续预测因子的线性组合。LDA假设预测变量是正态分布的,所有类别都有一个均值向量和一个公共协方差矩阵,并使用贝叶斯定理来逼近贝叶斯分类。如果上述条件适用,LDA在小数据集上表现良好。

22
mingdashike22 在职认证  发表于 2022-5-7 08:49:37
然而,尽管数据来自经常违反的假设,但直到20世纪80年代,它一直是主导技术,之后常常被logit/probit模型取代。一些常用的评估指标包括:回忆阳性(或TP率)=TP/(TP+FN)、回忆阴性(或TN率)=TN/(TN+FP)、精确阳性=TP/(TP+FP)、精确阴性=TN/(TN+FN)、准确度=(TP+TN)/(TP+TN+FN)、FP率=FP/(FP+TN)和FN率=FN/(FN+TP)。我们知道多变量信号提取,但在判断logit分析时不考虑它,此外,还介绍了将多个指标转化为一个输出的权值估计方法。预测分析聚类分类协方差矩阵LDA QDA Logit Logit LASSO频率表信号提取朴素贝叶斯决策树随机森林相似性函数KNN Others ANN ELM SVM回归图1:分类方法的分类标准判别分析(QDA)。QDA是LDA的一种变体,它为每个类别估计一个单独的协方差矩阵(参见Venables和Ripley[86])。这导致估计的参数数量显著增加,但最终导致非线性决策边界。据我们所知,QDA尚未应用于国家一级的预警演习。罗吉特分析。许多早期预警文献都涉及依赖logit/probit回归的模型。Logit分析基于一个或多个连续预测值的回归,使用logistic函数来描述属于两个类别之一的观察的概率。对于只有一个预测变量的情况,逻辑函数为p(X)=eβ+βX1+eβ+βX。由此,显然可以将该函数扩展到多个预测变量的情况。

23
可人4 在职认证  发表于 2022-5-7 08:49:40
Logit和probit模型经常被用于预测金融危机,正如Berg等人[11]的早期回顾所示。然而,关于指标和响应之间关系的分布(逻辑/正常)假设,以及变量之间缺乏相互作用,往往会被违反。例如,Lo Duca和Peltonen[62]表明,随着脆弱性数量的增加,危机发生的概率呈非线性增加。罗吉特套索酒店。LASSO(最小绝对收缩和选择算子)逻辑回归(Tibshirani[84])试图选择最相关的预测变量进行推理,并且通常应用于具有大量预测因子的问题。该方法使对数似然最大化,并使系数maxβl(β| y)的绝对值之和充裕- λPi |βi |,其中|βi |被Lnorm惩罚。这意味着套索将一些系数设置为零,并通过同时选择变量生成稀疏模型。最佳惩罚参数λ通常是通过交叉验证经验选择的。我们只知道在Lang等人[61]的文章中使用了Logit LASSOin,主要用于识别银行层面数据中的风险,但也汇总到国家层面,用于评估整个银行部门的风险。朴素贝叶斯在机器学习中,朴素贝叶斯方法是最常见的贝叶斯网络方法之一(见Kohavi等人[57])。贝叶斯学习基于给定数据计算每个假设的概率(或预测值和响应之间的关系)。这种方法被称为“朴素”,因为它假设预测变量是条件独立的。

24
kedemingshi 在职认证  发表于 2022-5-7 08:49:44
因此,该方法可能会给几个相关的预测值赋予较高的权重,这与上文讨论的平衡所有预测值影响的方法不同。然而,众所周知,这种方法可以很好地扩展到大型问题。据我们所知,朴素贝叶斯还没有被用于国家一级的早期预警演习。k-最近邻(KNN)。KNN是一种非参数方法,它使用相似性函数,根据k个最近的观测值来确定观测值的类别(参见Altman[5])。给定一个正整数k和一个观测值x,该算法首先确定最接近x的数据的k点xkin。然后将属于某类的概率估计为k个闭合点的分数,其响应值对应于相应的类。该方法被认为是机器学习领域中最简单的方法,有两个自由参数,整数k和一个影响邻域搜索距离的参数,可以针对每个数据集进行优化。与朴素贝叶斯一样,我们不知道以前在国家一级的预警演习中使用过KNN。分类树。正如Breiman等人[17]所讨论的,分类树实现了决策树型结构,通过对预测值进行一系列测试来做出决策。在分类树中,类由叶子表示,预测因子的连接由通向类的分支表示。这些连接规则将预测空间分割成若干简单的区域,允许复杂形状的决策边界。给定类似的损失函数,通过顺序信号提取也可以得到相同的结果。

25
能者818 在职认证  发表于 2022-5-7 08:49:47
该方法在机器学习的许多领域都被证明是成功的,并且具有很高的可解释性。为了降低复杂性和提高通用性,树的各个部分经常被修剪,直到达到最佳的样本外性能。剪枝的程度由一个复杂度参数决定,该参数在本文中用作自由参数。在早期预警文献中,分类控制的使用相当普遍。随机森林。Breiman[15]引入的随机森林方法使用分类树作为构建块,以牺牲可解释性为代价构建更复杂的方法。该方法基于不同采样的数据子集生长出许多分类树。此外,在每次分割时,从全套预测因子中随机抽取样本。只有来自该样本的预测因子被认为是分裂的候选因子,有效地迫使每棵树都具有多样性。最后,计算所有树的平均值。由于树木之间的相关性较小,这导致平均值的方差减小。在本文中,考虑了两个自由参数:树的数量和在每次分割时作为候选样本采样的预测值的数量。据我们所知,随机森林仅用于阿莱西和德特肯的早期预警演习[2]。人工神经网络(ANN)。受人脑神经元功能的启发,神经网络由通过加权链接连接的节点或单元组成(参见Venables和Ripley[86])。这些权重作为网络参数,通过学习算法进行迭代调整。最简单的神经网络类型是单隐层前馈神经网络(SLFN),它有一个输入、隐藏和输出层。

26
mingdashike22 在职认证  发表于 2022-5-7 08:49:50
输入层将输入值分配给隐藏层中的单元,而输出层中的单元计算来自隐藏层的输入的加权和,以产生更高的概率。尽管没有大小限制的ANN是任何连续函数的通用逼近器[44],但随着ANN大小的增加,计算时间呈指数增长,其可预测性降低。此外,判别分析和logit/probit分析实际上可以与非常简单的ANN[68,70]相关:即具有阈值和logistic激活功能的所谓单层感知机(即无隐藏层)。本文使用具有三个自由参数的基本SLFN:隐藏层中的单元数、最大迭代次数和权重衰减。第一个参数控制网络的复杂性,而最后两个参数用于控制学习算法的收敛方式。在学术预警文献中,人工神经网络的使用相当普遍。极限学习机器(ELM)。正如Huang等人[46]所介绍的,ELM指的是用于训练SLFN型神经网络的特定清除算法。与传统的迭代学习算法不同,ELM算法将输入权重随机化,并通过分析确定网络的输出权重。当使用该算法进行训练时,SLFN通常需要隐藏层中更多的单元,但计算时间大大减少,由此产生的神经网络可能具有更好的泛化能力。本文考虑了两个自由参数:隐层单元数和网络中使用的激活函数类型。据我们所知,我们不知道以前ELM算法在crisisprediction中的应用。支持向量机(SVM)。

27
kedemingshi 在职认证  发表于 2022-5-7 08:49:53
Cortes和Vapnik[23]提出的SVM是最流行的机器学习方法之一,用于监督学习。这是一种非参数方法,使用高维空间中的超平面来构造分类的决策边界。它有几个理想的特性。首先,支持向量机构造了一个最大边界分隔符,即选择的决策边界与训练数据点之间的距离最大,从而提高了泛化性能。第二,在构建这个分隔符时,它依赖于支持向量,而不是所有的数据点,比如逻辑回归。这些特性使该方法具有很高的灵活性,但仍有一定的抗过度拟合能力。然而,支持向量机缺乏可解释性。考虑的自由参数包括:成本参数,它影响建造分离器时对误分类观测的容忍度;伽马参数,定义支持向量的影响区域;以及使用的内核类型。我们不知道有研究使用支持向量机来推导早期预警模型。表4:文献综述。方法货币危机主权危机银行危机信号提取[51][54][12][1]LDA–[38][83]–QDA––罗吉特[32][39][69][10][18][80][40][8][62]罗吉特套索–[61]KNN––树[49][21][79][26]随机森林–[2]安[63][37][64][76][34][71]榆树––SVM––3。赛马、聚合和模型不确定性本节介绍稳健客观的赛马及其聚合背后的方法,以及估计模型不确定性的方法。3.1.

28
能者818 在职认证  发表于 2022-5-7 08:49:56
赛马的设置从第2节介绍的数据、分类问题和方法开始,我们在此重点介绍赛马中使用的设置和参数,从数据使用的细节和分类问题的一般规格到估计策略和建模。设置的目的是通过以现实的方式使用数据和使用最先进的规范解决分类问题,尽可能模拟实时使用。由于赛马的客观性依赖于对所有方法应用相同的程序,因此规格也需要在本质上是通用的。型号规格。本节描述了本文中所做工作的模型规格选择。在所有的选择中,我们都试图遵循最近关于这个话题的文献中的惯例。尽管模型输出是国家特有的,但文献还是倾向于使用汇集的数据和模型(例如,Fuertes和Kalotychou[40],Sarlin和Peltonen[77])。从理论上讲,人们希望解释描述危机的特定国家效应,但集合模型背后的理论基础是为了捕捉各种各样的危机和个别国家相对较少的事件。此外,由于我们对危机前的脆弱性感兴趣,并且没有为此滞后于解释变量,基准因变量被定义为危机前的特定年份。在赛马比赛中,基准是危机前5-12个季度。正如Bussi`ere和Fratzscher[18]提出的那样,我们通过不包括危机发生的时期或之后的两年来考虑危机后和危机偏见。

29
何人来此 在职认证  发表于 2022-5-7 08:49:59
排除在外的观察结果并不能说明从平静时期到灾难事件的转变,因为它们既不能被视为“正常”时期,也不能被视为危机前的脆弱性。根据同样的推理,危机前1-4个季度的观察结果也被忽略。为了用方法m发出二进制信号,我们需要在估计概率pmn上指定一个阈值τ,该阈值被设置为优化有用性(见第2.2节)。我们认为决策者更关心的是错过危机,而不是虚惊一场。因此,假设基准偏好u为0.8。这一推理遵循这样一个事实:信号被视为内部调查的呼吁,而虚假警报的重大负面影响只会从外部公告中产生。为了便于比较,我们一致地将每种方法的输出概率转换为样本数据的各自百分位数分布。这与模型聚合尤其相关,因为模型输出在相同规模上非常重要。更具体地说,根据每种方法的样本内概率计算经验累积分布函数,样本内概率和样本外概率都转换为样本内概率的百分位数。评估策略。为了解决手头的分类问题,本文使用了两种概念上不同的估计策略。首先,我们使用交叉验证来防止过度设置,并对泛化性能进行客观比较。其次,我们以实时练习的方式测试方法的性能。Stone[82]在20世纪70年代引入的交叉验证重采样方法,通常用于机器学习,以评估模型对样本外数据的泛化性能,并防止过度拟合。

30
何人来此 在职认证  发表于 2022-5-7 08:50:03
在一系列不同的交叉验证方法中,我们使用了所谓的K-折叠交叉验证。根据邵[81]的著名证据,漏掉一个交叉验证不会导致对潜在真实模型的一致估计,而某些类型的漏掉n个交叉验证是一致的。此外,Breiman[14]表明,漏掉一个交叉验证也可能会遇到问题,即数据中的一个小变化会导致所选模型中的一个大变化,而Breiman和Spector[16]以及Kohavi[56]发现K-foldworks比漏掉一个交叉验证更好。有关交叉验证的广泛调查文章,请参见Arlot和Celisse[6]。交叉验证有两种使用方式。交叉验证的第一个目的是作为模型选择工具,以获得最佳自由参数,目的是推广数据,而不是(过度)拟合样本数据。另一个目的是在交叉验证模型估计的相同抽样情况下,对样本外数据的模型性能进行客观比较。本文使用的方案包括将数据采样到K个折叠中进行交叉验证,其功能如下:1。随机将观察数据集分成大小大致相同的K个折叠。2.对于第k个样本外验证折叠,建立模型并计算最佳阈值τ*使用英国-剩余K为1r(u)- 1倍,也称为样本内数据。将阈值应用于第k次折叠,并从样品Ukr(u)中收集其值。对k=1,2,…,重复步骤1和2。。。,K、 并将所有K个验证集的样本外性能收集为UKr(u)=KPKk=1Ukr(u)。对于模型选择,对支持这些参数的方法执行自由参数的网格搜索。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-30 06:16