楼主: kedemingshi
2301 67

[量化金融] 基于机器学习技术的CDS速率构造方法 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-5-31 19:51:07
在交叉分类比较中包含特征变量选择是我们研究的一个独创性贡献。此外,我们的研究还考察了特征变量之间的相关性对分类绩效的影响。这里需要注意的是,与之前的比较研究中使用的许多数据集相比,金融市场数据可以而且通常会具有很强的相关性,特别是在金融压力时期,例如我们的研究所基于的时期(雷曼兄弟2008年破产前的100天)。我们认为,我们是第一批了解多重共线性对金融市场特定背景下分类绩效影响的研究机构之一。根据分类,我们发现,对于Naive Bayes和一些LDA和QDA分类,这种影响可以忽略不计(对于大多数分类家庭),也可以是负面的。我们比较了上述八个主要分类算法家族中的156个分类算法,以及不同的参数选择(可以是函数式的,也可以是数值式的)和不同的特征变量选择,以便在雷曼破产前100天的财务数据基础上构建CDS代理。我们的交叉分类比较表明,对于这些代理的构建,三个表现最好的分类是神经网络、支持向量机和袋装树。图10给出了我们结果的图形摘要。该绩效结果与King at al.(1995)和Delgado and Amorim(2014)的绩效结果大体一致。

12
nandehutu2022 在职认证  发表于 2022-5-31 19:51:09
作为我们内部分类器性能比较的一部分,我们比较了单个家族中具有不同参数和不同特征变量的分类器,发现这种性能通常变化很大,但对于某些分类器家族,如神经网络,它也可以相对稳定。第3节根据附录B中收集的图表进一步讨论了实证结果。虽然机器学习社区产生的不同分类算法可以被用作如此多的“黑箱”(从用户的角度来看,这可能是它们的优势之一),我们认为,至少对这些算法有一个基本的了解,对于它们的正确使用和解释,以及理解它们的局限性也很重要。

13
kedemingshi 在职认证  发表于 2022-5-31 19:51:12
因此,我们在本节中介绍了我们所使用的八个分类系列中的每一个,并将其与我们在此讨论的问题联系起来。1.4论文的结构本文的其余部分分为三节和两个附录:o在第2节中,我们简要介绍了机器学习分类,并描述了我们使用的八个分类算法家族中的每一个,以及CDS代理构造问题框架中的一个示例。o在第3节中,我们介绍了我们针对CDS代理构建的跨类别和类别内绩效比较研究的结果第4节给出了我们的结论,并为未来的研究提供了一些方向最后,附录A详细描述了作为我们代理结构基础的六个特征选择,并描述了我们使用的数据,而附录B包含了与第3.2节分类模型与传统统计回归方法相比所需的各个分类性能相关的不同图表,机器学习和分类技术在金融业中并不广为人知,至少目前使用较少。本节介绍了机器学习的基本概念,并介绍了我们用于CDS代理构建的八种分类算法。

14
能者818 在职认证  发表于 2022-5-31 19:51:15
作为一般参考,Hastie et al.(2009)对分类和机器学习进行了出色的介绍。虽然我们的论文关注的是CDS代理问题,但其一般方法可以很容易地适用于没有或没有足够市场数据的其他金融变量的代理构建。机器学习的总体目标是设计计算机化算法,预测一个群体中一个或多个响应变量的值,每个群体的成员都以向量值特征变量为特征,其值在某个有限维向量空间Rd中。对于我们的CDSProxy问题,所讨论的群体将由一组交易对手组成,其中每个交易对手,就构建代理而言,将以许多离散变量(如地区、部门或评级类别)和连续变量(如历史和隐含的股权波动率和(客观)违约概率或PDs)为特征,这些变量在不同的时间范围内。我们有时会将5年期CDS利率添加到此列表中,这是报价最多的利率,因此可能适用于缺少其他到期日流动报价的交易对手。特征空间的构建应基于其统计相关性和特征变量的经济意义。对于前者,可以进行形式统计分析,对每个特征变量对响应变量的解释力进行排序。就其经济相关性而言,人们可以运用商业判断,也可以利用有关CDS利率解释变量的现有研究。对美国来说,另一个重要问题是,所使用的特性应该为不可观察的交易对手以及可观察的交易对手提供流动报价。

15
可人4 在职认证  发表于 2022-5-31 19:51:18
在我们的研究中,我们选择了六组特征变量,并在此基础上构建了我们的CDS代理,我们参考附录A了解它们的描述,以及关于我们如何以及为什么选择它们的一些进一步评论。我们的选择并不意味着规范,实际上用户可能更喜欢其他功能。相关响应变量可以是给定到期日的CDS利率,如第1.2节中提到的两种现有CDS代理方法,也可以是类别标签,如可观察交易对手的名称。这已经表明,响应变量可以是连续的,在这种情况下我们称之为回归问题,也可以是离散的,在这种情况下我们处理的是分类问题。在本文中,我们将特别关注后者。与基于回归的方法不同,本文研究的基于分类的CDS代理方法并不试图预测不同到期日的CDS利率。相反,他们根据一组(财务)特征将可观察对手与不可观察对手联系起来,这两个特征都可以观察到。然后,可以使用前者的流动报价CDS利率来管理后者的违约风险,例如计算CVA和CVA reservecapital。与回归相比,基于分类的CDS代理方法具有最终仅使用市场报价的CDS利率的优势,因此至少在原则上不存在套利。相比之下,对每个需要报价的不同到期日使用直接回归可能会在不同到期日引入虚假套利机会:见Brummelhuis和Luo(2017)。

16
大多数88 在职认证  发表于 2022-5-31 19:51:21
事实证明,即使对于基本的简化形式信贷风险模型,也很难准确描述无套利CDS期限结构(尽管可以给出规避“明显”套利的简单标准)。另一方面,这种特征化似乎是无风险保证回归方法的必要先决条件。我们做了一些进一步的观察。1、根据分类的类型,可以定义和统计分析可观察和不可观察交易对手之间的关联强度。例如,线性描述分析(LinearDiscriminant Analysis)可以追溯到1936年的R.A.Fisher,它是已知的最古老的分类算法之一,根据特征变量的观测值,估计将不可观测分类为所考虑的任何可观测的后验概率。然后,它选择后验概率最大的可观察对象作为CDS代理:详见下文第2.1小节。2、将在培训集上校准不同的分类,并通过称为K倍分层交叉验证的统计程序评估其绩效:有关说明,请参见下文第2.10节。根据统计关联的强度和交叉验证的结果,可以认为,在违约风险文件中,不可观察的将类似于已分类的可观察的。3。在应用我们基于分类的CDS代理方法时,我们将从同一地区/部门桶中提取可观察和不可观察数据,但我们不会按评级进行桶。相反,我们将使用不同时间范围内的违约概率(PD)作为特征变量。这意味着在实践中,我们的分类将仅基于连续特征变量。

17
能者818 在职认证  发表于 2022-5-31 19:51:24
不同的PDs可能由信用评级机构提供,也可能是银行自己的内部评级。4、我们最终根据其特征变量的值(其中“关联”的确切含义将取决于所使用的算法),将可观察交易对手的市场报价CDS利率作为不可观察交易对手的缺失CDS利率,其与Chosen机器学习算法最密切相关。鉴于前一点,这些代理利率将自动反映地区和行业风险,从而满足上述第1.2小节中提到的监管机构标准1和2。我们的方法还涉及监管机构的标准#3:根据市场报价,代理利率自然会波动,所选可观察利率。此外,它们还将反映不可观测的交易对手特定的违约风险,因为随着市场条件的演变,不可观测的可能会根据其特征变量的演变被分类为不同的可观测。为了对分类算法进行更正式的描述,将{1,…,N}设为可观测值集,因此我们使用自然数对其进行标记,并将RDE设为所选的特征空间。典型的特征向量将用粗体x=(x,…,xd)表示。如上所述,对于我们来说,特征向量的组成部分将是不同时间范围内的财务变量,如历史或隐含可用性和/或估计的PD。我们的分类问题是构建地图:Rd→ {1,…,N}基于特定的数据训练集,DT={(xi,yi):xi∈ Rd,yi∈ {1,…,N},i=1,n},(2)对应于可观察交易对手的数据:xi是交易对手yi的可观察特征向量。从数学上讲,我们将使用的每一种机器学习算法都是用来构造映射Fθ:Rd的→ {1。

18
mingdashike22 在职认证  发表于 2022-5-31 19:51:28
,N},θ为参数向量,而ourmapsby的形式为:by(x)=Fbθ(x)(3),其中参数bθ将从训练集DT“学习”,通常通过最大化一些性能标准或最小化一些错误,具体取决于所使用的学习算法的类型。参数θ可以是数值的,如k近邻法中的k、决策树算法中的树大小约束或baggedTree的学习周期数,也可以是函数的,如Naive Bayesian方法中的核函数、支持向量机的核函数或神经网络的激活函数。在可能的情况下,我们通过交叉验证优化了数值参数。我们顺便注意到,构建的分类映射通常会强烈依赖于训练集,而更完整但也更繁琐的符号,如BYDT(最佳参数的orbθD)将表明这种依赖性;然而,我们将把它作为隐含的理解。实际上,还存在一个问题,即我们需要多久更新一次这些训练集:这将取决于分类算法“学习”的速度,这将决定以下机器学习文献,如Delgado和Amorim(2014),我们指的是基于与分类器系列相同方法的分类算法。

19
大多数88 在职认证  发表于 2022-5-31 19:51:32
在每个分类家族中,我们将通过参数(包括特征向量的维数)相互区别的分类算法称为单独的分类算法。如后面几节所示,探索参数化选择不仅有助于根据分类性能选择最佳分类,还有助于解释性能变化和交叉分类。表1列出了我们在本文中调查的8个分类家庭中的156个分类。第一列包含分类标签,这些标签将在论文的其余部分使用,包括附录。第二栏简要描述了每个分类机构和表1:八个最受欢迎分类机构家族下的156个分类机构;”FS”代表“特征选择”标题“FS1-FS6”,第三列中的“FS1-FS6”指的是我们使用的6种不同的特征变量选择,详见附录A。在本节的其余部分,我们介绍了在CDS代理问题的特定背景下,八种最流行的机器学习分类族(Wu等人,2008),结合一些示例。在本节末尾,我们介绍了用于交叉验证和分类选择的统计程序。接下来,我们将对每种方法进行描述,并举例说明。2.1线性高斯判别分析线性判别分析或LDA,以及我们将在下文讨论的密切相关的二次判别分析(QDA)和Naive贝叶斯方法(NB),均基于贝叶斯规则。这些方法解释了训练集DT={(xi,yi):i=1。

20
mingdashike22 在职认证  发表于 2022-5-31 19:51:35
,n}作为一对随机变量(X,Y)的样本,并通过贝叶斯公式估计特征向量X被分类到类(对于我们,对方)j的后验概率密度,P(Y=j | X=X)=P(X=X | Y=j)P(Y=j)P(X),其中P(X=X | Y=j)是属于类j的特征向量的先验概率密度,我们也将其称为类条件密度,其中P(X)=PNk=1P(X | Y=k)P(Y=k)。为了简化符号,我们通常会写出πj:=P(Y=j),表示类j的无条件成员概率,P(x | j)表示P(x=x | Y=j),P(j | x)表示P(Y=j | x=x)。LDA、QDA和NB方法对类别条件密度的假设不同。对于前两种情况,假设这些密度为高斯分布。可以将LDA和QDA方法推广到包括非高斯密度,例如通过使用椭圆分布,但由此产生的决策边界(定义如下)将不再具有LDA和QDA的线性或二次超曲面的特征。关于基于贝叶斯公式的贝叶斯分类的一般介绍,请参阅Hasteet al.(2009)。2.1.1 LDA算法线性判别分析将j类条件密度函数定义为befj(x):=P(x=x | Y=j):=(2π)-d | V|-e-(十)-uj)电视-1(x-uj),(4)其中ujr表示与第j类相关的特征向量的平均值,其中V是具有非零行列式V和逆V的方差协方差矩阵-1、观察我们采用的是特定类别均值,但采用的是非特定类别方差协方差矩阵。采用后一类规范也会导致QDA,这将在下面的第2.2小节中讨论。作为ujand V的自然选择,对于给定的训练数据集DT={xi,yi):i=1。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-2 12:33