基于机器学习技术的CDS速率构造方法 - 第4页 - 外文文献专区

31楼

发表于 2022-5-31 19:52:13

，N，（16），其中▄x：=（1，x）如上所述，每个β是如上所述的参数向量。N个参数向量可以通过最大似然估计，新的特征向量被分类为（16）最大的类别。如果N=2，该模型等效于二元Logistic回归，参数向量β=β-β、如果我们让j=1对应于Y=1。更一般地，我们可以通过公共向量来转换βi，而不改变概率（16），因此我们可以始终假设βN=0。我们尚未使用此特定版本，但（16）将作为无线网络分类器的输出层重新出现在下面。2.6决策树决策树算法本质上是为了识别特征空间中的矩形区域，这些区域描述了不同的类别（对于我们来说：可观察的交易对手），在一定程度上，这种描述是可能的。这里的“矩形”表示这些区域将由一组不等式a定义≤ x<b，xd公司≤ xd<bd，其中aν和bν可以是-∞分别地∞. 这些区域是通过树型结构发现的，在树型结构中，我们将每个特征变量的值范围依次拆分为两个子区间，对于每个子区间，确定每个可观察对手的相对频率，在子区间中有其特征变量，最后，选择将可观测数据分为两个子类成为“最纯粹”的组成部分，从某种适当的统计意义上讲，其含义应该是，与子类相关的交易对手的经验分布更加集中在几个单一的子类上。在我们到达仅包含单个类的区域之前，或者在达到树大小的一些预先指定的限制条件（最大拆分数量）之前，此过程是重复的。

32楼

kedemingshi

发表于 2022-5-31 19:52:16

决策树（DecisionTree）是“贪婪”算法的一个例子，在该算法中，我们寻求实现局部最优收益，而不是试图实现某些全局最优。历史上，机器学习中提出了各种类型的基于树的算法。本文使用的版本是一种二元决策树，类似于Breiman等人（1984）最初提出的分类和回归树（CART）和Quinlan（1993）提出的C4.5。如果需要，可以通过替换节点或移除子树来修剪树，同时使用交叉验证检查这不会降低树的预测精度。2.6.1决策树算法对于决策树的构建，我们需要一个标准来决定DTS的两个子样本中哪个更集中于（特定的）交易对手。这可以使用杂质度量的概念来实现，杂质度量是定义在概率p=（p，…，pN）的有限序列上的函数，其中pj≥ 0和pjpj=1，其性质是G（p）是所有pi的最小值，除了一个是0，其余的pithen必然是1；有时，我们会添加这样的条件：G在其参数中是对称的，并且当所有pk都相等时，G假设其最大值：p=····=pN=1/N。我们在研究中也使用了两个常见的杂质度量示例：1。基尼指数，G=1-NXj=1pj，（17），通过将其写入asPNj=1pj（1- pj），可以解释为NBernoulli随机变量的方差之和，其成功概率分别为pj和2。交叉熵，G=-NXj=1pjlog pj。（18）可以进行拆分，以最大化G测量的纯度增益。另一个不同的拆分标准是Twoing，将在下文中解释。然后根据以下算法1构建决策树。

33楼

mingdashike22

发表于 2022-5-31 19:52:20

从根节点T.2处的完整培训示例数据开始。给定一个节点Tp（对于“父节点”）和幸存样本集DTp，对于每对s=（ν，r）和1≤ ν≤ d和r∈ R、将DTpL拆分为两个子集，即数据点的集合DTpL（xi，yi）∈ 其中第ν个分量xi，ν<r，以及由xi，ν定义的集合DTpR≥ r、我们将s称为拆分，DTpL（s）和DTpR（s）分别称为DTp的相关左拆分和右拆分。请注意，我们可以将自己限制为有限数量的拆分，因为DTp中（xi，yi）只有很多特征值xi，ν，并且我们可以在xi，ν的两个连续值之间任意选择r，例如中间值。3、对于j=1，N、设πp，jbe为数据点的比例（xi，yi）∈ 对于yi=j的dtpf，同样，对于给定的分裂，设πL，j（s）和πR，j（s）是这些点inDTpL（s）和DTpR（s）的比例。将这些数字收集到三个向量πp（s）中=πp，1（s），πp，N（s）,πL（s）=πL，1（s），πL，N（s）同样，对于πR（s），计算每个分裂的纯度增益，定义为G（s）：=G（πp）-pL（s）G（πp，L（s））+pR（s）G（πp，R（s））,式中，pL（s）：=#DTpL（s）/#DTpand pR（s）：=#DTpR（s）/#DTp左拆分和右拆分的DTp点分数。4、最后，选择拆分s*其中纯度增益最大，并用数据集DTpL确定两个子节点Tp、Land Tp、Rw*) 和DTpR*).5、重复步骤2至4，直到每个新节点都有一个关联的数据集，该数据集只包含属于单个名称j的特征数据，或者直到达到节点数量上的某些人工停止标准。很明显，节点实际上可以通过相关数据集进行识别。

34楼

mingdashike22

发表于 2022-5-31 19:52:24

如果我们使用twoing，那么步骤3将被computingpL（s）pR（s）替换nXj=1πj，R（s）- πj，L（s）,第4步，选择一个使表达式最大化的拆分。s*不一定是唯一的，尽管一般认为基于树的方法的一个优点是其直观的内容和易于解释。我们将结果树中的叶子数视为树的大小或复杂性。超大数据树变得不太容易解释。为了避免这种过于复杂的树，我们可以规定分割数z的边界作为停止标准。我们可以通过检查一系列最大拆分的交叉验证结果来搜索树大小的最佳选择。如经验结果部分所示，一旦达到约20.2.6.2的水平，分类精度就不再受到z的强烈影响。决策树的示例表2显示了决策树算法使用作为特征向量生成的决策规则：=（PD3yr，PD5yr，σh3m），对于表最后一列代码所示的五个可观察交易对手。该算法基于2008年9月15日雷曼破产前100天收集的数据运行：见附录A。该树有9个节点，标记为1到9。

35楼

何人来此

发表于 2022-5-31 19:52:27

根据其特征变量的值，一个不可观测的将被引导通过一系列节点，从节点1开始，直到与单个可观测对手相关的节点结束，然后对其进行分类。表2：基于决策树的CDS代理方法的简单示例，如表1所示，我们调查了树的大小和纯度增益的不同定义（基尼、熵、二分法）对决策树分类性能的影响：交叉分类比较见第3节，分类内比较见图18及其相关表格。众所周知，决策树算法可能会避免过度匹配：它可能在训练集上表现良好，但在测试集上无法获得令人满意的结果。因此，我们还研究了所谓的自举聚合树或袋装树，这是一个集成分类器的示例，我们将在下面的第2.9节中详细讨论。2.7支持向量机我们将仅限于对支持向量机（SVM）算法的直观几何描述，有关技术细节，请参考文献：例如，参见Hastie et al.（2009）。传统上，SVM的解释从两类分类问题开始，类y=1和y=-1，其中训练数据的特征向量分量dt={（xi，yi）∈ Rd×{±1}，i=1，n}可以线性分离，因为我们可以找到一个超平面H Rn使得所有日期xi，其中yi=1，位于超平面的一侧，以及yi=-1躺在另一边。

36楼

mingdashike22

发表于 2022-5-31 19:52:30

不用说，对于给定的数据集，线性可分性的假设不一定满足，不满足的情况将在下面讨论。如果它真的成立，人们也会谈到硬利润的存在。假设有这样一个硬边界，支持向量机的想法是选择一个分离的超平面，该超平面将到两组特征变量的距离最大化，其中yi=1的特征变量集和yi=-这两个距离可以相等，它们的总和M称为边距：见图5。使用一些初等解析几何，可以将其重新表述为具有线性不等式约束的二次优化问题：最小β，β| |β| |取决于YiβTxi+β≥ 1，i=1，n、（19）不等式约束为最优解等式的数据点称为支持向量：这些是确定最优裕度的向量。If（β*, β*) 是唯一的最佳解决方案，将任何新的特征向量x指定给类y=1或y=-1根据y（x）是正还是负，其中（x）=β*Tx+β*. （20） | x（x）|越大，将新数据点x分配到其各自类别的“安全性”就越高，请记住，将算法扩展到下面的多类别分类。2.7.1 margin图5的一个示例说明了最大边距为M的线性可分离数据的概念。图5:Margin2.7.2非线性可分离数据的SVM示例。如果属于这两类的特征数据不是线性可分离的，它们总是可以通过一些弯曲的超曲面来分离，并且数据在新坐标系（ξ，…，ξd）中线性可分离，例如，在新坐标系中，S的方程简化为ξ=常数。

37楼

大多数88

发表于 2022-5-31 19:52:33

一个标准的例子是半径为R的球体内部的一组点与球体外部的另一组点：这些点在通常的笛卡尔坐标系中显然不是线性可分的，但在极坐标系中会变得可分。更一般地说，人们总是可以从Rdinto中找到一个带有k的可逆Mooth映射≥ d使得变换后的特征向量Д（xi）变得线性可分离。然后，可以在转换后的数据集{（Д（xi），yi）：i=1，…，N}上运行RK中的算法，并构造formby（x）=β的决策函数*TД（x）+β*可用于分类。从理论角度来看，这是非常令人满意的，但从实际角度来看，还有一个问题，即如何让机器自动选择合适的映射。为了避免这种情况，我们首先考虑原始利润最大化问题的双重表述（19）。不难看出最优解可以写成线性组合β*=Pni=1α*ixio数据点：任何非零分量β⊥垂直于XI的β的值对约束没有作用，但贡献了正的β值⊥||目标函数。在geometricterms中，如果所有数据都位于某个低维线性子空间（例如超平面），则最优的、边距最大化的分离超平面将垂直于该子空间。因此，可以将自己限制为β=Piαixi形式的β，而不是（19）求解minα，αPi，jαiαjxTjxis。t、易PjαjxTjxi+α≥ 1，i=1，n、（21）对于转换后的问题，我们只需替换内积xTjxibyД（xj）TД（xi）：请注意，由此产生的二次最小化问题始终是n维的，而与目标空间的维数无关。

38楼

可人4

发表于 2022-5-31 19:52:36

现在关键的观察结果是，系数k（xi，xj）=Д（xj）TД（xi）（22）的对称n×n矩阵是正定义的，相反，如果k（x，y）是矩阵k（xi，xj）i、 jis正定义，则可通过已知的一般结果，即默瑟定理，将其写成（22）表示适当的Д。函数kk（xi，xj）i、 jis始终为正定义，无论xi点的选择如何，都称为正定义核。此类核的示例包括（非归一化）高斯k（x，y）=e-c | | x-y | |与多项式核1+yTxp、其中p是正整数。为了构造一个通用的非线性SVM分类器，我们选择一个正定义的核k，并求解minα，αPi，jαiαjkxi，xjs、 t.yi公司Pjαjkxi，xj+ α≥ 1，i=1，n、（23）然后，经过训练的分类函数是b（x）的符号，其中（x）：=nXj=1α*jk公司x、 xj公司+ α*,这个*指示最佳解决方案。2.7.3硬边距与软边距最大化尽管坐标变换后始终可以进行线性分离，但如果我们不希望分离面表现得太“疯狂”，允许一些数据点位于分离面错误的一侧可能是有利的：想想两类点的例子，“正方形”和“圆形”，所有“圆”与0之间的距离大于1，所有“正方形”的距离小于1，只有一个距离为100。此外，即使数据可以线性分离，如果这允许我们增加利润率，从而更好地对未来数据点进行分类，那么让一些数据未分类可能仍然是有利的。

39楼

nandehutu2022

发表于 2022-5-31 19:52:39

因此，我们可能希望允许一些分类失误，但要付出一定的代价。这可以通过将第i个不等式约束中右侧的1替换为1来实现- ξi，将成本函数CPiξ添加到要最小化的目标函数中，并对所有ξi进行最小化≥ 0.意味着对于所有向量（v，…，vN），Pi，jk（xi，xj）vivj≥ 02.7.4多类分类我们已经给出了两类SVM分类器的描述，但我们仍然需要解释如何处理多类分类问题，其中我们必须对特征向量xamong类进行分类。有两种标准方法可以解决这个问题：我们可以将问题分解为两类问题，方法是将每个类的特征向量分类为属于给定类或不属于给定类。然后，两类算法为我们提供N个分类函数byj（x），j=1，N、然后，我们通过取（或a）jbyj（x）具有最大值（最大利润）的j来构建一个全局分类器。另一种方法是为每个N（N- 1） /2对类，然后再次查看选择两类决策函数具有最大值的一个类。如表1所示，我们研究了具有线性、高斯和多项式核的SVM算法，并测试了它们在CDS代理问题中的性能。结果见第3节和附录B.2.8神经网络2.8.1描述由人脑功能及其构成神经元的某些生物模型驱动，神经网络表示由单个神经元的程式化（数学模型）网络组成的学习过程，这些神经元被组织成输入层、输出层和一个或多个中间隐藏层。每个“神经元”变换一个输入向量z=（z。

40楼

kedemingshi

发表于 2022-5-31 19:52:42

，zp）转换为单个输出u，首先取输入的线性组合piwizi，添加一个常数orbias项w，最后对结果应用非线性变换f：u=fXwizi+w= fwTz+w, （24）所有神经元的权重wi将通过一些全局优化程序“学习”。对于所谓的感知机，最初的想法是为f取一个阈值函数：f（x）=1if x≥ 否则为a和0，仅当输入信号wTz+WW的a ffine组合足够强时，才会传输信号。如今，人们通常将f视为光滑可微分函数，例如由σ（x）=1+e定义的sigmoid函数σ-cx（25），c为可调整参数。f的其他选择是双曲正切函数或线性函数；这些都是一对一的，因此与感知器相反，没有任何输入信号丢失。作为输入层神经元的输入，我们采用特征向量x。然后，输入层神经元的输出作为第一个隐藏层神经元的输入，这些输出随后作为下一个隐藏层的输入，等等。。哪个输出作为哪个神经元的输入取决于网络结构：例如，可以将给定层中的每个神经元连接到下一层中的所有神经元。最终隐藏层的输出uf=（ufν）ν经过最终的精细变换，得到K值wtkuf+wk0，K=1，K、（26）对于某些权重向量wk=（wkν）ν和偏差项wk0，类似于隐藏层的权重，必须从测试数据中学习：更多信息如下。

[量化金融] 基于机器学习技术的CDS速率构造方法 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群