基于机器学习技术的CDS速率构造方法 - 第3页 - 外文文献专区

21楼

发表于 2022-5-31 19:51:38

，n}，取uj类相关特征向量的样本平均值，uj=njXi：yi=jxi，其中nj：=#{（xi，yi）：yi=j}是j类中的数据点数，V是{xi：i=1，…，n}的样本方差协方差矩阵，是训练样本的所有特征向量集。或者，我们可以通过最大似然估计这些参数；我们注意到，对于正态分布，均值和方差协方差的最大似然估计当然在符号上等于它们的样本值，但这里x的无条件分布将不是正态分布，而是正态混合。我们最终需要j类成员的先验概率πjj；同样，有几种选择是可能的。我们简单地通过将πj=nj/n作为训练集所隐含的经验概率，其中我们记得n=#dt是数据点的数量，但是，或者，我们可以将贝叶斯式的统一概率πj=1/n（如果使用贝叶斯估计来训练算法，这将自然成为初始的优先概率）。最后，我们可以通过最大似然估计πj，同时使用上述其他参数。一旦校准或“学习”，新的特征向量x被分类如下：x属于j类而不是l类的对数似然比可以表示为：Lj，l（x）：=对数FJ（x）πj/P（x）fl（x）πl/P（x）！=对数（πj/πl）+对数fj（x）- log fl（x）=log（πj/πl）-uTjV-1uj+uTlV-1ul+xTV-1（uj- ul）。（5）这是x的一个函数，通过将Lj，l（x）等于0获得的决策边界是Rd中的一个超平面。如果我们定义类j的判别函数bydj（x）=xTV-1uj-uTjV-1uj+logπj，（6）然后Lj，l（x）>0 i ffdj（x）>dl（x），在这种情况下，特征向量x被分类为与l相对的可观察j。这是LDA对分类为两类的批评。

22楼

nandehutu2022

发表于 2022-5-31 19:51:41

为了将此推广到多类分类中，我们将特征向量x分类到其具有强关联的类j中，通过判别函数（6）进行测量：因此，我们的最佳决策规则为（x）=arg maxjdj（x）。（7）这也被称为最大后验概率或映射决策规则；以下其他类别将使用相同或类似类型的决策规则。2.1.2一个说明性示例为了说明两种DA算法和NB，我们使用了三个交易对手的例子，即AET、APA和AMGN，我们观察到二维特征向量x=（s，σimp3m），表示5年期CDS利率和3个月期隐含波动率。在图1中，APA的观测特征向量以蓝色绘制，AET和AMGN的观测特征向量分别以红色和绿色绘制。轮廓线是区分APA和AMGN的LDA决策边界，而暗线区分AET和AMGN。为了更好地实现图，我们省略了第三个决策边界。显然，LDA在区分NAPA和AMGN方面比AET和AMGN方面做得更好。要对不可观察的交易对手进行分类，首先计算“评分函数”（6），j=1、2、3分别对应于三个可观察的APA、AMGN和AET，并将交易对手与得分最高的j相关联（例如，在特殊情况下得分最高的最小j有几个这样的j）。如表1所示，我们调查了两种类型的LDA分类器，对于合并方差协方差矩阵V有两种不同的参数选择，一种是将样本方差施加在对角线上的对角线V，另一种是完整（经验）方差协方差矩阵V，并用附录a中的六个特征变量选择对其进行了测试。

23楼

大多数88

发表于 2022-5-31 19:51:45

关于LDA与其他类别家庭的绩效比较，请参见第3节，关于类内绩效比较，请参见附录B。图1：线性判别分析2.2二次判别分析LDA假设类别条件概率分布的方差协方差矩阵与类别无关。相比之下，在二次判别分析（QDA）中，我们允许每个类别j的类别特定协方差矩阵Vj1。因此，我们将得到二次决策边界，而不是线性边界。2.2.1 QDA算法在高斯假设下，QDA的类条件密度函数为：fj（x）=P（x=x | Y=j）=（2π）-d | Vj|-e-（十）-uj）电视-1j（x-uj），（8）其中，VJI现在是一个类特定方差协方差矩阵，而uj与之前一样，是一个类特定均值。对于LDA，有几个选项用于校准模型；我们只取集合{xi：yi=j}的样本均值和方差协方差矩阵。比较类成员关系的对数可能性，就像我们对LDA所做的那样，现在可以得到由dj（x）=-日志| Vj |-（十）- uj）电视-1j（x- uj）+logπj.（9）如果dj（x）>dj（xl），特征向量x将被分类为类j而不是l，决策边界{x:dj（x）=dl（xl）}现在将是二次的。QDA下的多类别分类决策规则同样是MAP规则（7），但带有新的评分函数（9）。

24楼

mingdashike22

发表于 2022-5-31 19:51:48

如果所有l和j的Vj=VL，则QDA减少为LDA。2.2.2二次判别分析的示例图2中的青色曲线描绘了QDA算法发现的示例2.1.2中交易对手APA和AMGN之间的二次决策边界，其中为了更好地表示，我们仅显示三个决策边界中的一个。图2：二次判别分析示例如表1所示，我们调查了两个QDA分类，对于LDA，对于六个不同的特征变量选择，协方差矩阵Vj有两个参数化选择，对角线和全参数。交叉分类和内部分类的比较结果见第3节和附录B。特别是图12显示，对于我们的CDS代理问题，全方差协方差矩阵的QDAW在所有六个特征选择中都优于其他DA算法，其中性能差异在准确率方面可能高达20%左右。2.3 Naive Bayes分类对于LDA和QDA，Naive Bayes分类使用Bayes公式计算后验概率P（j | x），但要做一个强有力的附加假设，即在每个类别内，特征变量的成分作为独立的随机变量：假设Y=j，x的成分xν是独立的，ν=1，d、换言之，假设各个特征在条件上独立，给定它们所属的类别。作为此类条件独立假设的结果，Naive Bayes将多变量概率密度P（x | j）的估计减少到d单变量概率密度fj，ν（x）：=P（xν=x | Y=j），ν=1。

25楼

何人来此

发表于 2022-5-31 19:51:52

，d，类条件密度由其乘积简单给出。2.3.1 NB决策算法在类条件独立假设下，j类条件密度为fj（x）=dYν=1fj，ν（xν）。（10）对数似然比（5）可以计算为lj，l（x）=logπjfj（x）πlfl（x）！=对数πjπl+dXν=1对数fj，ν（xν）- 对数fl，ν（xν, （11）通过将Lij（x）设置为0，再次获得决策边界。因此，Naive Bayes的判别函数是dj（x）=logπj+dXν=1log fj，ν（xν），（12），Naive Bayes的分类，一旦校准或训练，再次由映射规则（7）定义。还有一个问题是如何选择单变量密度fj，ν（xν）。有两种基本方法：1。参数规格：可以简单地为每个fj、ν指定一个单变量分布的参数族，并从训练样本中估计参数。注意，NB与正常fj，ν减少到具有对角方差协方差矩阵vj的QDA的特例。2、非参数规格：或者，可以对Ffj，ν使用非参数估值器，如核密度估值器（KDE）。我们记得，如果{x，x，…，xn}是概率密度为f的实值随机变量x的样本，那么f的Parzen核密度估计量由bf（x）=nbnXi=1K定义x个- xib公司, （13）其中，核K是R上的非负函数，其积分为1，平均值为0，b>0称为带宽参数。核密度估计器代表了一种平滑样本数据的方法。b的选择是至关重要的：太小的a b可能会导致过度变化，从而试图过于接近数据，而太大的a b将“过度平滑”，并忽略样本中存在的底层结构。

26楼

nandehutu2022

发表于 2022-5-31 19:51:55

三种流行的核是正规核，其中K（x）简单地被视为标准正规pdf，以及所谓的三角核和Epanechnikov核（Epanechnikov，1969），它们分别是紧支撑的1阶和2阶分段多项式，其精度我们参考文献。为了简单起见，我们对所有fj，ν使用了相同的内核和带宽。我们的类内比较结果表明，在大多数情况下，具有正态核的KDE估计优于其他两个核函数。关于核和带宽的选择，对于我们来说，问题不在于KDE估计是否提供了单个fj，ν的良好近似值，而在于这如何影响分类误差：在这方面，见图14.2.3.2 Naive Bayes的一个示例图3将NB发现的具有正态分布个体特征的类条件密度等值线图（左图）与QDA发现的等值线图（右图）进行了比较，以用于我们的示例2.1.2。左侧的三个正态分布的主轴平行于坐标轴，反映了Na've Bayes的独立性假设。它们显示出比右侧更强烈的超重叠，其倾斜方向反映了它们的非对角协方差矩阵。更强的重叠转化为更高的误分类率，我们的经验研究证实，对于所使用的任何特征变量选择，Naive Bayes分类器的表现都不如QDA。图3：表1中列出的朴素贝叶斯类条件独立性与相关高斯，我们研究了Bandwith和核函数选择对朴素贝叶斯分类性能的影响。

27楼

能者818

发表于 2022-5-31 19:51:59

我们在第3节中的实证结果表明，与其他分类家庭相比，Naive BayesClassis家庭的表现相当差，这与非财务数据分类的文献结果形成对比：例如，见Rish et al.（2001）。这可能是由于Naive Bayes的独立性假设，该假设不适用于财务数据：如图15所示，对于我们的数据集，该数据集来自一段财务压力时期，大约80%的特征变量成对相关性高于70%。即使在正常情况下，人们预计3个月的历史波动率和3个月的隐含波动率也会具有显著的相关性。感兴趣的读者可以在附录B.2.4 k-最近邻中找到有关NB性能的更多详细信息。在分类中，通常有两个阶段：第一个阶段是训练阶段，其中一个阶段估计学习算法的参数，或者用机器学习的说法，训练算法。第二阶段称为测试阶段，使用该算法对不在训练集中的特征向量进行分类，并可能根据已知结果检查结果，以验证训练的分类器；我们还将谈到预测或分类阶段。k近邻算法或k-NN算法是所谓的懒惰学习策略的一个例子，因为它在训练阶段几乎没有效果；因此，在测试/预测阶段，它往往在计算上很昂贵。2.4.1 k-NN算法让DT={（xi，yi）：i=1。

28楼

能者818

发表于 2022-5-31 19:52:02

，n}如前所述，我们的训练集，其中xi是可观测对手yi的可观测特征向量，k-NN算法可描述如下：o对于给定的特征向量x，我们可以将其视为某个不可观测名称的特征向量，计算（xi，yi）的所有距离d（x，xi）∈ DT，其中度量d可以是特征空间Rd上选择的任何度量，例如欧几里德度量或所谓的城市街区度量对距离进行排序，并从xi中选择x的k个最近邻居。将这组点称为<（x，k）：在图4中，这些点是圆内的点。o按（x）将x分类为该元素∈ {1，2，…，N}最常出现在yiforwhich xi中∈ <（x，k），如果此类元素上的值大于，则使用一些任意规则（例如，取最小值）。这就是所谓的多数票规则；关于Bayesianjustification，见Hastie等人（2009）。如前所述，与我们考虑的其他算法相比，2.4.2 k-nn的示例图4提供了第k个最近邻算法的简单说明。基于二维特征空间，它描述了两个观察对象的特征向量，每个观察对象在一个矩形框内有10个数据样本：一个观察对象用蓝色的“x”形状表示；“另一个伯德”” 形状。假设我们想用k-NN对灰色十字表示的不可观测x进行分类。以k=3和欧几里德距离为度量，我们发现训练集中距离x最近的第三个点恰好是红色“” 箭头指向的位置。在这三个最近的邻居中，红色方框出现两次，蓝色方框只出现一次。

29楼

nandehutu2022

发表于 2022-5-31 19:52:07

根据多数票规则，然后选择x的CDS代理作为红框（由代表的名称）。如表1所示，我们使用三种不同的距离度量研究了k-NN，即欧几里德度量、城市块或“-度量和所谓的马氏距离，其中考虑了训练样本中特征向量的空间分布（扩散和方向），我们还研究了分类精度对k的依赖性。内部分类结果如附录B的图16和表8所示，而k-NN与其他分类族的比较则在第3.2.5节所讨论的贝叶斯类型分类的逻辑回归中进行，我们首先通过建模和估计特征向量的类条件概率分布，以及类成员的先验概率，然后应用贝叶斯公式来估计后验概率密度P（j | x）。相比之下，逻辑回归（LR）直接假设P（j | x）的特定函数形式，然后直接从训练数据估计。逻辑回归分类有两种类型，二项分类和多项式分类，对应于两类和多类分类。显式公式为：d（x，y）=p（x-y） T（x-y=pPν（xν- yν）对于欧氏度量，d（x，y）=Pν| xν- yν|表示城市街区度量，且dV=q（x-y）待定-1（x-y）对于Mahalanobis度量，其中bv是xi的经验方差方差矩阵。图4:k–NN说明性示例2.5.1二项式LR分类我们必须对特征向量x进行分类∈ rD到两个类中的一个，Y=0或1。二元回归假设Y=1给定x的概率为P（x；β）：=P（Y=1 | x）：=gβ+XνβνXν= g级βTx, （14）其中g（z）=（1+e-z）-1是逻辑或乙状结肠功能，β=（β，β，β。

30楼

能者818

发表于 2022-5-31 19:52:10

，βd）是参数向量，x：=（1，x），添加分量1以包括截距项β。给定一个约束集DT={（xi，yi）| i=1，…，n}与yi∈ {0，1}，可以很容易地记下在该模型下获得dt数据的可能性，并且可以通过最大似然估计（MLE）来确定β，对于最大似然估计，可以使用标准的统计包。一旦校准到参数bβ，如果p（x，bβ），我们将新的特征向量x分类为Y=1≥ 0.5，否则为Y=0：等效地，由于两个概率之和均为1，由（x）=arg maxjpj（x，bβ），其中p（x，bβ）：=p（x，bβ）和p（x，bβ）=1- p（x，bβ），如果两种概率相等，我们同意将x分类为1。2.5.2多项式LR分类将两类LR算法扩展到多类情况，我们将多类分类问题重新描述为两类问题的序列。例如，我们可以选择一个observablesj∈ {1，…，N}作为参考类，并在参考类的隶属度或无隶属度之间连续运行一系列二项逻辑回归，即，如果x属于该类j，则取Y=1，否则取Y=0。这将导致N-1具有N的logistic回归-1参数向量Bβj，j=1，N-1、新特征变量x被分类为j的可能性为p（x，bβj），我们将x分类为该可能性最大的类别。换言之，我们定义分类函数by（x）by（x）=arg maxjp（x，bβj），（15），与往常一样，对于最大值为一个以上j值所指定的例外情况，我们或多或少地使用一些任意规则，例如取最大值或最小值。在多类Logistic回归的另一个版本中，我们直接通过p（j | x）=eβTjxPleβTlx，j=1，…对条件概率进行建模。

[量化金融] 基于机器学习技术的CDS速率构造方法 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群