[量化金融] 屈服曲线参数的联合概率分布建模 [推广有奖]

11楼

能者818

发表于 2022-6-10 08:35:18 |只看作者 |坛友微信交流群

它们提供了建模样本中统计相关性的唯一独立累积量式描述。例如，最大正值为≈ 0.65，与第一个和第二个变量中的抛物线相对应的是：两者都靠近中心的统计无效性。最大负isa≈ -0.82，表示随着第一个变量的增长，第二个变量的减少。五、上下文相关建模下一步是尝试利用时间相邻值之间的统计相关性：基于上下文表示历史，例如一些以前的值，或提取有关过去的关键信息，例如在一些降维方法中，如PCA：对应于方差矩阵的最大特征值。为了简单和降维，我们将研究（x，x）对，因为xh的相关性要弱得多。我们已经将前一对视为上下文（d=4）：xt=（x（t），x（t），x（t- 1），x（t- 1））或之前的两对（d=6）：xt=（x（t），x（t），x（t- 1），x（t- 1），x（t-2），x（t- 2））对于t=1。n其中是n- 1或n- 2相应地。图5给出了最大考虑模型（d=6，m=9，10coef）最重要的100个系数。每个都是独立的，并具有特定含义：校正ajQdi=1fji（xi），以在[0，1]上初始均匀密度-提供观察数据样本中统计相关性的唯一描述。不只是随机噪声的结果，σ≈ ρ=1时为0.012（在[0，1]d上的均匀密度），在该样品中超过几十倍。图6显示了m=9阶2（右，10coef系数）和类似的阶1（左，10coef系数）的结果。尤其是order 2模型提供了一个非常完美的协议：≈ 80%的情况下，实际观测值位于最小预测区域（ρ=10的红边界）。

使用道具举报

12楼

kedemingshi

发表于 2022-6-10 08:35:20 |只看作者 |坛友微信交流群

然而，这将MillionConefficient模型应用于6467个数据点——多项式逼近数据点峰值。图5：。最重要的统计相关性：百万系数模型的100个最大绝对值系数：m=9，d=6，对三个相邻对进行建模。相应的6个坐标为：（x（t）、x（t）、x（t- 1），x（t- 1），x（t- 2），x（t- 2)). 该列表显然以a=1开始，对应于规范化（剩余函数积分为0）。然后，我们有图4中所示的“11”对，这一次在所有3个位置，系数几乎相同（微小的差异来自于开始和结束时的出现）。然后我们看到一个大的≈ 一≈ 0.81描述相邻对之间依赖关系的正系数：例如，随着前三个变量的增长，第四个变量也可能增长。当m=9阶时，我们看到“9”指数仅出现在最后一个位置：这里的第100位-主要统计相关性由相对低阶多项式描述。假设[0，1]上的密度均匀，这些系数应为高斯分布，中心为0，σ=1/√n≈ 0.012，因此上述系数>40σ可视为统计意义：不应解释为噪声的结果。正确的预测评估应该测试泛化能力，如图7所示。这些27个模型的测试首先将数据样本随机分成两个不相交的子集，使用第一个子集计算系数，然后对第二个子集进行测试。我们发现≈ 25%的病例出现负性密度-具有强烈的过度拟合。

使用道具举报

13楼

可人4

发表于 2022-6-10 08:35:24 |只看作者 |坛友微信交流群

然而，对于预测的高密度区域，它通常会给出正确的预测。最后，我们看到，选择最合适的模型是一个困难的问题，可能值得考虑一些模型，并以某种方式混合它们的预测。六、结论和进一步展望虽然金融数据通常假设为高斯分布，但实际上往往要复杂得多，包括多峰分布。有人提出了用多项式对这种联合分布进行建模的系统方法，这使得可以使用数千个独立的累积量样系数有效地发现和处理参数化，每个单元都有特定的解释，并且计算成本低廉。所使用的示例出于教育原因应用了基本方法，我们计划在未来研究其扩展，例如：o基础的选择性选择：我们使用了多项式的completebasis，这使得其（m+1）DSIzeim实际上很大，尤其是对于高维。图6：。顶部：二度m=9模型的实际观测值的排序预测密度：使用一个（左，10coef系数）或两个（右，10coef系数）之前的（x，x）对作为上下文。它包含密度大于ρ=0，1，10阈值，在区域图中绘制。下图：预测密度在四个随机时间点的区域图，两种模型的预测密度相同。我们可以看到过度拟合，尤其是在右栏中，较大的白色区域表示预测的ρ<0。该模型将6467个样本的系数定为百万，接近密度为多项式，使用的点有尖峰。正确的模型评估应该测试其推广能力：估计样本子集的系数，并测试其余点——其结果如图7所示。图7：。

使用道具举报

14楼

大多数88

发表于 2022-6-10 08:35:27 |只看作者 |坛友微信交流群

对27个模型的正确评估：在随机选择的25%数据点中，对实际观测值的预测密度进行排序（预测越高越好），使用剩余的75%点来训练模型（估计系数）。对于（x，x）和所有度数m=1，…，使用了上下文无关（d=2）、1阶（d=4）和2阶（d=6）模型，最高（蓝色）图类似于图6，但这一次使用不相交的训练集和测试集来防止过度匹配。然而，通常只有一小部分系数高于噪声-我们可以有选择地选择并使用稀疏的重要值基础，而不是描述真实的统计相关性。或者，我们可以有选择地减少一些变量的多项式次数系数的自适应选择：我们假设系数在时间上是常数，这与时间序列的平稳性相对应。然而，在实践中，它通常是非平稳的，可以使用系数来建模的不是这里所示的给定函数所有值的平均值，而是一些局部平均值，例如指数衰减权重[3]长期价值预测：与利用长期相关性的最先进预测模型相结合，例如使用更复杂的（不仅仅是以前的价值）当前价值预测值改进用于预测的上下文信息内容：我们可以使用一些特征，例如描述长期行为，如时间窗口内的平均值，或者例如从维度还原方法（如PCA（主成分分析））获得的特征，而不是使用以前的一些值作为上下文。虽然此处使用的方法类似于马尔可夫建模，但未来需要考虑的替代方法是使用时间作为坐标之一，例如，在移动的时间窗口中，t多项式到（x（t），x（t），t）三元组。

使用道具举报

15楼

kedemingshi

发表于 2022-6-10 08:35:30 |只看作者 |坛友微信交流群

这将需要更低的维度，允许直接建模更长的相关性。它还允许使用continuoustime。参考文献【1】J.Duda，“利用时间序列的统计相关性进行分层相关重建”，arXiv预印本XIV:1807.041192018。[2] ——，“快速参数密度估计”，arXiv预印本XIV:1702.02144，2017年。[3] --，“缺失数据的分层相关重建”，arXiv预印本arXiv:1804.062182018。

使用道具举报