一种基于内存的方法，用于选择 - 第3页 - 外文文献专区

21楼

nandehutu2022

发表于 2022-6-14 11:51:26

5，分别为均质（左）和非均质（右）系统的所有样本的G体积特征值直方图，该特征值的体积由红色的Marˇcentko Pastur分布很好地拟合。在携带真实信息的整体（插图中所示）之外，有mmax=30（同质）和mmax=28（异质）特征值。这再次表明，在合成情况下，自相关也很弱。我们通过计算公式（12）的t hemedian Lcutof再次看到了这一点，对于合成系统，t hemedian Lcutof公式（12）为2–再次接近1，这是我们对白噪声的预期，因此我们仍然可以使用MP分布作为内容16（a）同质（b）异质图5：对于N=1200、t=4000、a和K=30个集群的合成市场的100个样本，矩阵G的特征值直方图。β系数和赫斯特指数的值如正文所示。（左）均质系统，每组40只股票。红色为等式（9）的最佳马伦科牧场分布，参数q=0.284±0.002，σ=0.939±0。001，上边缘λ+=2.0756。插入包括λ+以外的mmax=30个特征值。（右）相同的图，但针对具有相同参数的非均质系统，但第6.1节中定义了不同的簇结构。这里λ+=1.9322，q=0.299±0.004，σ=0.898±0.002。最后，在这种情况下，除了λ+，还有mmax=28个特征值。近似值。我们还注意到，MP图。5（a）和5（b）比无花果好。1（a）和1（b），因为我们可以调整合成数据中的白噪声，所以该区域中的大部分行为更类似于白噪声。这是通过改变φ的值来实现的。对于每个样品，我们找到中值ζ（m），在图4（a）中以对数-对数比例绘制均质系统的中值ζ（m），并在图4（a）中绘制。

22楼

mingdashike22

发表于 2022-6-14 11:51:29

4（b）对于非均质材料。如前所述，最佳值m对于均质和非均质系统，结果分别为19和12。事实上对于异构系统而言，值越低越有意义，因为其广泛的幂律分布值Nk意味着系统的更多内存包含在早期的主要组件中，这些组件的Nk越大。由于更多的内存集中在较少的主成分中，因此m的相应值对于非均质系统将更低。另一方面，对于同质系统，我们得到所有k的k都相等，因此我们可以预期内存在主成分上更均匀地分布，即将更大。我们还将第5节中的方法应用于与附录A中所述经验数据集相对应的数据矩阵X，其中mmax=35（详见图4（c）的标题）。目录177。与其他启发式方法选择m的比较在本节中，我们将把我们的新方法与当前可用的“停止规则”进行比较。为了确定,通常分为三类：主观方法、基于分布的方法和计算程序[1、2]。我们在此描述每个类别中最常见的。在主观方法类别中，我们发现了两个类似的程序，即累积变异百分比（cumulativepercentage of variation）[21,22]和scree图（20）]。前者的基础是选择m的最小值，使其主成分解释的变量累积百分比超过某个阈值α：m= minm{∧（m）>α}，（24）∧（m）=100Pmp=1λpN，（25）其中∧（m）是切向力百分比，α是切向力百分比阈值a，{λp}mp=1是G的前m个特征值。

23楼

nandehutu2022

发表于 2022-6-14 11:51:32

常见的切割范围介于70%到90%之间，当已知或明显前几个主要成分将解释数据中的大部分可变性时，倾向于更大的值【1】。这种方法的一个明显缺点是，它依赖于为公差α选择一些任意值。Scree图包括绘制一个“分数”，表示各个主成分解释的数据中的可用性量，然后选择该图形成“弯头”的点，超过该点，选择更多的主成分不会显著提高已占的记忆水平。该程序的明显缺点是依赖于图形检查，因此比累计变化百分比更主观。在基于分布的方法中，最常用的方法是Bartlett检验[23]。这涉及检验无效假设[1]H0，m=λm+1=λm+2=…=λN，（26）即最后N- m特征值相同，而最后N个特征值中至少有两个特征值相同- m特征值不相同，对m的各种值重复此测试。然后选择m的最大值，假设测试的结果对其有重要意义。直觉地，此程序测试-meigenvalues解释了数据中大致相同的变化量，因此可以将其视为噪声，然后取m是“重要”特征值的最大数量。根据该程序，第一次测试H0，N- 2i。e、是否λN-1=λN。如果该假设未被拒绝，则测试H0，N- 3，如果未拒绝，则对H0进行相同的测试，N- 4等等。该程序将对每个H0进行测试，直到第一次（m=m- 1）该假设在所需的置信水平上被拒绝。

24楼

何人来此

发表于 2022-6-14 11:51:35

由于需要按顺序进行多个测试，程序的内容18整体意义将与每个后两次测试的内容不同，无法纠正这种偏差，因为要执行的测试数量是先验未知的。这一缺点使得基于分布的方法在实际数据中非常实用[1]。最后一类（计算程序）涉及交叉验证的使用。交叉验证要求初始删除原始数据集X的一些块。剩余的数据矩阵条目与公式（17）一起使用，以使用m个主成分对删除的条目进行预测。我们将重点放在所谓的10倍连续块交叉验证上，该验证被认为是最佳的，因为它最准确地捕获了相关矩阵的真实结构（E或G）[68]。根据这个过程，我们将数据矩阵X按行划分为10个矩形块，我们称之为X（g），因为g=1。。。，10、对于每个gro up g，我们计算与矩阵X相关的相关性matr ix g（g），但移除块X（g）。接下来，我们取G（G）的m个主成分，并将它们用于一个factormodel，如式（17）所示，但以m作为总和的上限，以预测X（G）的值，我们称之为^X（G，m）。然后，我们对每个m和g重复此过程。这样做之后，我们可以计算预测剩余误差平方和，或压力（m），作为m的函数。这是每个值和所有块的总（未归一化）预测平方误差压力（m）=NXi=1Xg=1Xt∈Gg公司^X（g，m）ti- X（g）ti, （27）其中^X（g，m）是使用m个主成分的块g预测值矩阵，gg表示属于块g的行指数。公式。

25楼

能者818

发表于 2022-6-14 11:51:43

（27）表示预测X输入时的样本外误差，这意味着压力（m）最初应随着m的增加而减小。然而，超过某个阈值后，压力（m）可能会开始增加，这表明我们开始过度调整数据。最优m因此，应选择最小压力（m）的值，从而在增加模型复杂性和过度拟合数据之间取得最佳平衡。与前两类相比，该程序具有明显的优势，因为它无参数且不主观。然而，在实际应用中，一个显著的缺点是，对于大型数据集，由于~ O（Nmmax）需要从数据集执行的整合。对于第6.1节所述的100个合成系统样本和附录A所述的经验数据集，我们比较了基于记忆的方法、具有70%和90%剪切力的累积方差方法和10倍交叉验证方法，其中对于这些方法，详见表1各列。在图6（顶面板）中，我们绘制了所有样本的同质和非同质合成数据的∧（m）中值（见公式（25）），以红色虚线表示70%和90%的切割。70%和90%的剪切力产生12种内容物的最佳数量190 5 10 15 20 25 30（a）均质0 5 10 15 20 25 30（b）非均质0 5 10 15 20 25 306.87.27.47.67.88.28.48.624 26 28 306.866.886.96.92（c）均质0 5 10 20 25 307.58.59.510.511.520 22 24 28 7.627.637.647.65（d）非均质图6：（顶部）λ（m）的中值（见等式（25）的累积方差方法分别是同质系统和异质系统。

26楼

mingdashike22

发表于 2022-6-14 11:51:46

70%和90%的剪切力水平显示在da-shed红线中，均相系统出现在m=12、22处，非均相系统出现在m=7、17处。（Botto m）对于均质和非均质系统a增益，我们对每个样品使用10倍cro-ss验证绘制压力中值（m）（见等式（27））。我们从放大的插图中看到，对于均质系统，最小压力（m）出现在m=29 f时，对于非均质系统，最小压力（m）出现在m=25时。同质情况下为22组分f，异质情况下为7组分和17组分f。有道理的是，由于第一个主成分占总方差的比例更大，因此在异质情况下需要更少的成分，而第一个主成分通过构造对应于更大的聚类。我们记得，我们的基于记忆的方法预测= 19和m= 12对于均质和非均质情况，这些值正好落在规定的70%和90%截面积之间【1】。然而，我们的方法更优越，因为它为m提供了唯一的值并且没有一系列的值，也没有使用主观标准或经验法则。图6（底部面板）描绘了所有样本的压力中值（m），来自内容20基于累积方差12–22 7–17 13–27交叉验证29 25 MMAX30 28 35表1：该表总结了m第6节中描述的合成数据获得的值。1和附录A中描述的经验数据集。第6.2节中基于记忆的方法的结果包含在第一行中。在第二行中，我们有70%和90%切割的累积偏差规则。最后一行包括压力（m）（见等式。

27楼

kedemingshi

发表于 2022-6-14 11:51:49

（27）），使用10倍交叉验证。基于经验的合成同质异质记忆138.6 137.6 209.7交叉验证1136.8 1146.3 1462.3表2：我们提出的基于记忆的方法（Firstrow）的计算时间（秒）和使用10个连续块（第二行）的交叉验证。前两列是指第6.1节中的均相和非均相合成系统。最后一列是附录A中所述的经验数据集的f。这些性能时间是在Windows 10、CPU Intel i7-6700 3.4 GHz、RAM 16GB PC上使用MATLAB 2017b计算的。我们看到最小值出现在m= 29对于均质系统和M= 异质性为25。因此，交叉验证方法将促使我们保持两个系统中组件的主要性。这是可以预期的，因为交叉验证基于最小化样本外预测误差（见公式（1-7）），因此多次执行线性回归必然会导致包含更多主成分的更高可能性。这当然是以计算速度为代价的。另一个有趣的观察结果是，两个系统中出现的最小值并没有明确定义，这表明样本外误差是由包含比最佳值更多的成分所造成的实际上不会大幅增加。与交叉验证相比，我们的方法可以保留更少的组件。然而，我们的程序计算成本较低，因为它的回归结果远远少于m（见表2）。我们的方法相对于交叉验证的另一个优势可以在图4的顶部面板中看到，图4突出显示，移除市场模式后，同质和异构系统的总内存中只有9%和6%未计入^θ的右侧。

28楼

可人4

发表于 2022-6-14 11:51:52

从解释内容的角度来看，210.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.570%cum。var90%立方米。varmemory10折叉val（a）0.5 0.6 0.7 0.8 0.9 1 1 1.1 1.2 1.370%cum。var90%立方米。varmemorycross val（b）图7：选择m的不同方法的比较通过改变φ，合成数据模拟中的噪声水平（见公式（23））。对于φ的每个值，生成100个过程样本，在左侧绘制均匀系统的结果，在右侧绘制非均匀系统的结果。蓝色和红线代表70%和90%累积方差程序的结果。距离线对应于你的方法。最后，紫色线代表10倍交叉验证的结果。因此，时间序列中的内存，我们的方法平均来说做得很好，同时需要非常有限的计算资源。现在，我们已经比较了固定φ的方法，即合成数据的噪声计方差（见公式（23）），我们可以检查每种方法对φ变化的鲁棒性。我们注意到，fixingφ=1已经构成了一个难以分析的区域，因为它意味着由Ik（t）引起的波动与白噪声具有相同的大小，因此我们可以看到，与φ值较高的其他方法相比，我们的方法表现得很好。在图7中，我们使用100个合成系统样品比较了均质和非均质情况下的最佳值m通过70%和90%的累积方差法、10倍交叉验证法和我们自己的基于记忆的程序预测，随着φ的变化。对于φ的大多数值，累积方差规则的70%和90%切割保持相对稳定，然后缓慢减小f或φ的更高值。

29楼

大多数88

发表于 2022-6-14 11:51:55

出现这种情况的原因是，噪声水平的增加降低了较高成分对方差的贡献，从而导致φ值越高，切割速度越快。在我们基于内存的方法中减小f或增大φ。出现这种下降的原因是，较高数量的白噪声越来越多地掩盖了基础信号的长记忆特性，并且会对更深的主成分产生更大的影响，因为它们的记忆强度（Hk）更低。这是一个理想的属性，因为这意味着降低no ise水平将使我们保留更多的主成分。当成分数量减少时，内容物220 5 10 15 20 25 30 35（a）0 5 10 15 20 25 30 351.091.11.111.121.131.141.151.161.171.181.1915 20 25 30 351.0961.0981.11.1021.104（b）图8：累积方差规则、交叉方差和基于记忆的测定m的方法之间的比较应用于附录A（左）中定义的经验数据集，公式（25）中定义了∧（m）图，红色虚线位于m=13和m=27处，表示主成分表示总变量的70%至90%之间的区域。（右）等式（27）中给出的压力（m）图，使用10倍交叉验证，放大的插入版本显示最小值出现在m=28处。早于累积方差法，它仍然保持在70%和90%之间，对于φ值较低的情况，甚至更接近90%。对于附录A中所述的经验数据集，我们在图8（左）中绘制了∧（m）的图，这是由m个主要成分解释的累积变化百分比。

30楼

何人来此

发表于 2022-6-14 11:51:58

我们看到，如果我们将目标设定在[1]中规定的累积方差的70%到90%之间，这将对应于保留13到27个分量，但我们仍然不清楚在这个范围内应该选择什么样的精确值。在图8（右）中，我们绘制了通过10倍交叉验证获得的压力（m），其中最小值出现在m= 28，接近累积方差的90%。同样，与交叉验证相比，我们的方法挑选出的主要成分更少，但我们获得结果的计算时间要少得多（见表2），并且= 15我们已经可以占到内存的80%。结论在本文中，我们提出了一种新的数据驱动方法来选择最优数m在长记忆数据的主成分分析中要保留的主成分。第5节详细介绍了主要步骤。我们使用了一个至关重要的事实，即后续组件对系统总内存的贡献量不断减少。这使我们能够确定一个独特的、非主观的、计算上昂贵的停止标准，该标准与其他可用的启发式程序（如累积变量和cro ss验证）相比非常好（见表1和表2）。内容23我们在两个合成系统上测试了我们的方法：同质和非同质版本6.1，以及附录a中描述的金融对数波动率经验数据集上的lso。我们的结果可以应用于任何具有长记忆特性的大型数据集，例如气候科学[35，36]和神经科学[5，37]。未来工作的一个重要方向可能是对体积特征值使用零假设，该假设考虑了自相关的存在，而不是此处使用的MPdistribution。

[量化金融] 一种基于内存的方法，用于选择 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群