楼主: kedemingshi
2368 67

[量化金融] 基于机器学习技术的CDS速率构造方法 [推广有奖]

21
何人来此 在职认证  发表于 2022-5-31 19:51:38
,n},取uj类相关特征向量的样本平均值,uj=njXi:yi=jxi,其中nj:=#{(xi,yi):yi=j}是j类中的数据点数,V是{xi:i=1,…,n}的样本方差协方差矩阵,是训练样本的所有特征向量集。或者,我们可以通过最大似然估计这些参数;我们注意到,对于正态分布,均值和方差协方差的最大似然估计当然在符号上等于它们的样本值,但这里x的无条件分布将不是正态分布,而是正态混合。我们最终需要j类成员的先验概率πjj;同样,有几种选择是可能的。我们简单地通过将πj=nj/n作为训练集所隐含的经验概率,其中我们记得n=#dt是数据点的数量,但是,或者,我们可以将贝叶斯式的统一概率πj=1/n(如果使用贝叶斯估计来训练算法,这将自然成为初始的优先概率)。最后,我们可以通过最大似然估计πj,同时使用上述其他参数。一旦校准或“学习”,新的特征向量x被分类如下:x属于j类而不是l类的对数似然比可以表示为:Lj,l(x):=对数FJ(x)πj/P(x)fl(x)πl/P(x)!=对数(πj/πl)+对数fj(x)- log fl(x)=log(πj/πl)-uTjV-1uj+uTlV-1ul+xTV-1(uj- ul)。(5) 这是x的一个函数,通过将Lj,l(x)等于0获得的决策边界是Rd中的一个超平面。如果我们定义类j的判别函数bydj(x)=xTV-1uj-uTjV-1uj+logπj,(6)然后Lj,l(x)>0 i ffdj(x)>dl(x),在这种情况下,特征向量x被分类为与l相对的可观察j。这是LDA对分类为两类的批评。

22
nandehutu2022 在职认证  发表于 2022-5-31 19:51:41
为了将此推广到多类分类中,我们将特征向量x分类到其具有强关联的类j中,通过判别函数(6)进行测量:因此,我们的最佳决策规则为(x)=arg maxjdj(x)。(7) 这也被称为最大后验概率或映射决策规则;以下其他类别将使用相同或类似类型的决策规则。2.1.2一个说明性示例为了说明两种DA算法和NB,我们使用了三个交易对手的例子,即AET、APA和AMGN,我们观察到二维特征向量x=(s,σimp3m),表示5年期CDS利率和3个月期隐含波动率。在图1中,APA的观测特征向量以蓝色绘制,AET和AMGN的观测特征向量分别以红色和绿色绘制。轮廓线是区分APA和AMGN的LDA决策边界,而暗线区分AET和AMGN。为了更好地实现图,我们省略了第三个决策边界。显然,LDA在区分NAPA和AMGN方面比AET和AMGN方面做得更好。要对不可观察的交易对手进行分类,首先计算“评分函数”(6),j=1、2、3分别对应于三个可观察的APA、AMGN和AET,并将交易对手与得分最高的j相关联(例如,在特殊情况下得分最高的最小j有几个这样的j)。如表1所示,我们调查了两种类型的LDA分类器,对于合并方差协方差矩阵V有两种不同的参数选择,一种是将样本方差施加在对角线上的对角线V,另一种是完整(经验)方差协方差矩阵V,并用附录a中的六个特征变量选择对其进行了测试。

23
大多数88 在职认证  发表于 2022-5-31 19:51:45
关于LDA与其他类别家庭的绩效比较,请参见第3节,关于类内绩效比较,请参见附录B。图1:线性判别分析2.2二次判别分析LDA假设类别条件概率分布的方差协方差矩阵与类别无关。相比之下,在二次判别分析(QDA)中,我们允许每个类别j的类别特定协方差矩阵Vj1。因此,我们将得到二次决策边界,而不是线性边界。2.2.1 QDA算法在高斯假设下,QDA的类条件密度函数为:fj(x)=P(x=x | Y=j)=(2π)-d | Vj|-e-(十)-uj)电视-1j(x-uj),(8)其中,VJI现在是一个类特定方差协方差矩阵,而uj与之前一样,是一个类特定均值。对于LDA,有几个选项用于校准模型;我们只取集合{xi:yi=j}的样本均值和方差协方差矩阵。比较类成员关系的对数可能性,就像我们对LDA所做的那样,现在可以得到由dj(x)=-日志| Vj |-(十)- uj)电视-1j(x- uj)+logπj.(9)如果dj(x)>dj(xl),特征向量x将被分类为类j而不是l,决策边界{x:dj(x)=dl(xl)}现在将是二次的。QDA下的多类别分类决策规则同样是MAP规则(7),但带有新的评分函数(9)。

24
mingdashike22 在职认证  发表于 2022-5-31 19:51:48
如果所有l和j的Vj=VL,则QDA减少为LDA。2.2.2二次判别分析的示例图2中的青色曲线描绘了QDA算法发现的示例2.1.2中交易对手APA和AMGN之间的二次决策边界,其中为了更好地表示,我们仅显示三个决策边界中的一个。图2:二次判别分析示例如表1所示,我们调查了两个QDA分类,对于LDA,对于六个不同的特征变量选择,协方差矩阵Vj有两个参数化选择,对角线和全参数。交叉分类和内部分类的比较结果见第3节和附录B。特别是图12显示,对于我们的CDS代理问题,全方差协方差矩阵的QDAW在所有六个特征选择中都优于其他DA算法,其中性能差异在准确率方面可能高达20%左右。2.3 Naive Bayes分类对于LDA和QDA,Naive Bayes分类使用Bayes公式计算后验概率P(j | x),但要做一个强有力的附加假设,即在每个类别内,特征变量的成分作为独立的随机变量:假设Y=j,x的成分xν是独立的,ν=1,d、 换言之,假设各个特征在条件上独立,给定它们所属的类别。作为此类条件独立假设的结果,Naive Bayes将多变量概率密度P(x | j)的估计减少到d单变量概率密度fj,ν(x):=P(xν=x | Y=j),ν=1。

25
何人来此 在职认证  发表于 2022-5-31 19:51:52
,d,类条件密度由其乘积简单给出。2.3.1 NB决策算法在类条件独立假设下,j类条件密度为fj(x)=dYν=1fj,ν(xν)。(10) 对数似然比(5)可以计算为lj,l(x)=logπjfj(x)πlfl(x)!=对数πjπl+dXν=1对数fj,ν(xν)- 对数fl,ν(xν, (11) 通过将Lij(x)设置为0,再次获得决策边界。因此,Naive Bayes的判别函数是dj(x)=logπj+dXν=1log fj,ν(xν),(12),Naive Bayes的分类,一旦校准或训练,再次由映射规则(7)定义。还有一个问题是如何选择单变量密度fj,ν(xν)。有两种基本方法:1。参数规格:可以简单地为每个fj、ν指定一个单变量分布的参数族,并从训练样本中估计参数。注意,NB与正常fj,ν减少到具有对角方差协方差矩阵vj的QDA的特例。2、非参数规格:或者,可以对Ffj,ν使用非参数估值器,如核密度估值器(KDE)。我们记得,如果{x,x,…,xn}是概率密度为f的实值随机变量x的样本,那么f的Parzen核密度估计量由bf(x)=nbnXi=1K定义x个- xib公司, (13) 其中,核K是R上的非负函数,其积分为1,平均值为0,b>0称为带宽参数。核密度估计器代表了一种平滑样本数据的方法。b的选择是至关重要的:太小的a b可能会导致过度变化,从而试图过于接近数据,而太大的a b将“过度平滑”,并忽略样本中存在的底层结构。

26
nandehutu2022 在职认证  发表于 2022-5-31 19:51:55
三种流行的核是正规核,其中K(x)简单地被视为标准正规pdf,以及所谓的三角核和Epanechnikov核(Epanechnikov,1969),它们分别是紧支撑的1阶和2阶分段多项式,其精度我们参考文献。为了简单起见,我们对所有fj,ν使用了相同的内核和带宽。我们的类内比较结果表明,在大多数情况下,具有正态核的KDE估计优于其他两个核函数。关于核和带宽的选择,对于我们来说,问题不在于KDE估计是否提供了单个fj,ν的良好近似值,而在于这如何影响分类误差:在这方面,见图14.2.3.2 Naive Bayes的一个示例图3将NB发现的具有正态分布个体特征的类条件密度等值线图(左图)与QDA发现的等值线图(右图)进行了比较,以用于我们的示例2.1.2。左侧的三个正态分布的主轴平行于坐标轴,反映了Na've Bayes的独立性假设。它们显示出比右侧更强烈的超重叠,其倾斜方向反映了它们的非对角协方差矩阵。更强的重叠转化为更高的误分类率,我们的经验研究证实,对于所使用的任何特征变量选择,Naive Bayes分类器的表现都不如QDA。图3:表1中列出的朴素贝叶斯类条件独立性与相关高斯,我们研究了Bandwith和核函数选择对朴素贝叶斯分类性能的影响。

27
能者818 在职认证  发表于 2022-5-31 19:51:59
我们在第3节中的实证结果表明,与其他分类家庭相比,Naive BayesClassis家庭的表现相当差,这与非财务数据分类的文献结果形成对比:例如,见Rish et al.(2001)。这可能是由于Naive Bayes的独立性假设,该假设不适用于财务数据:如图15所示,对于我们的数据集,该数据集来自一段财务压力时期,大约80%的特征变量成对相关性高于70%。即使在正常情况下,人们预计3个月的历史波动率和3个月的隐含波动率也会具有显著的相关性。感兴趣的读者可以在附录B.2.4 k-最近邻中找到有关NB性能的更多详细信息。在分类中,通常有两个阶段:第一个阶段是训练阶段,其中一个阶段估计学习算法的参数,或者用机器学习的说法,训练算法。第二阶段称为测试阶段,使用该算法对不在训练集中的特征向量进行分类,并可能根据已知结果检查结果,以验证训练的分类器;我们还将谈到预测或分类阶段。k近邻算法或k-NN算法是所谓的懒惰学习策略的一个例子,因为它在训练阶段几乎没有效果;因此,在测试/预测阶段,它往往在计算上很昂贵。2.4.1 k-NN算法让DT={(xi,yi):i=1。

28
能者818 在职认证  发表于 2022-5-31 19:52:02
,n}如前所述,我们的训练集,其中xi是可观测对手yi的可观测特征向量,k-NN算法可描述如下:o对于给定的特征向量x,我们可以将其视为某个不可观测名称的特征向量,计算(xi,yi)的所有距离d(x,xi)∈ DT,其中度量d可以是特征空间Rd上选择的任何度量,例如欧几里德度量或所谓的城市街区度量对距离进行排序,并从xi中选择x的k个最近邻居。将这组点称为<(x,k):在图4中,这些点是圆内的点。o按(x)将x分类为该元素∈ {1,2,…,N}最常出现在yiforwhich xi中∈ <(x,k),如果此类元素上的值大于,则使用一些任意规则(例如,取最小值)。这就是所谓的多数票规则;关于Bayesianjustification,见Hastie等人(2009)。如前所述,与我们考虑的其他算法相比,2.4.2 k-nn的示例图4提供了第k个最近邻算法的简单说明。基于二维特征空间,它描述了两个观察对象的特征向量,每个观察对象在一个矩形框内有10个数据样本:一个观察对象用蓝色的“x”形状表示;“另一个伯德”” 形状。假设我们想用k-NN对灰色十字表示的不可观测x进行分类。以k=3和欧几里德距离为度量,我们发现训练集中距离x最近的第三个点恰好是红色“” 箭头指向的位置。在这三个最近的邻居中,红色方框出现两次,蓝色方框只出现一次。

29
nandehutu2022 在职认证  发表于 2022-5-31 19:52:07
根据多数票规则,然后选择x的CDS代理作为红框(由代表的名称)。如表1所示,我们使用三种不同的距离度量研究了k-NN,即欧几里德度量、城市块或“-度量和所谓的马氏距离,其中考虑了训练样本中特征向量的空间分布(扩散和方向),我们还研究了分类精度对k的依赖性。内部分类结果如附录B的图16和表8所示,而k-NN与其他分类族的比较则在第3.2.5节所讨论的贝叶斯类型分类的逻辑回归中进行,我们首先通过建模和估计特征向量的类条件概率分布,以及类成员的先验概率,然后应用贝叶斯公式来估计后验概率密度P(j | x)。相比之下,逻辑回归(LR)直接假设P(j | x)的特定函数形式,然后直接从训练数据估计。逻辑回归分类有两种类型,二项分类和多项式分类,对应于两类和多类分类。显式公式为:d(x,y)=p(x-y) T(x-y=pPν(xν- yν)对于欧氏度量,d(x,y)=Pν| xν- yν|表示城市街区度量,且dV=q(x-y) 待定-1(x-y) 对于Mahalanobis度量,其中bv是xi的经验方差方差矩阵。图4:k–NN说明性示例2.5.1二项式LR分类我们必须对特征向量x进行分类∈ rD到两个类中的一个,Y=0或1。二元回归假设Y=1给定x的概率为P(x;β):=P(Y=1 | x):=gβ+XνβνXν= g级βTx, (14) 其中g(z)=(1+e-z)-1是逻辑或乙状结肠功能,β=(β,β,β。

30
能者818 在职认证  发表于 2022-5-31 19:52:10
,βd)是参数向量,x:=(1,x),添加分量1以包括截距项β。给定一个约束集DT={(xi,yi)| i=1,…,n}与yi∈ {0,1},可以很容易地记下在该模型下获得dt数据的可能性,并且可以通过最大似然估计(MLE)来确定β,对于最大似然估计,可以使用标准的统计包。一旦校准到参数bβ,如果p(x,bβ),我们将新的特征向量x分类为Y=1≥ 0.5,否则为Y=0:等效地,由于两个概率之和均为1,由(x)=arg maxjpj(x,bβ),其中p(x,bβ):=p(x,bβ)和p(x,bβ)=1- p(x,bβ),如果两种概率相等,我们同意将x分类为1。2.5.2多项式LR分类将两类LR算法扩展到多类情况,我们将多类分类问题重新描述为两类问题的序列。例如,我们可以选择一个observablesj∈ {1,…,N}作为参考类,并在参考类的隶属度或无隶属度之间连续运行一系列二项逻辑回归,即,如果x属于该类j,则取Y=1,否则取Y=0。这将导致N-1具有N的logistic回归-1参数向量Bβj,j=1,N-1、新特征变量x被分类为j的可能性为p(x,bβj),我们将x分类为该可能性最大的类别。换言之,我们定义分类函数by(x)by(x)=arg maxjp(x,bβj),(15),与往常一样,对于最大值为一个以上j值所指定的例外情况,我们或多或少地使用一些任意规则,例如取最大值或最小值。在多类Logistic回归的另一个版本中,我们直接通过p(j | x)=eβTjxPleβTlx,j=1,…对条件概率进行建模。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-2 16:45