|
(替代的基于分数的划分)现有的获取progransticScores和执行顺序分配的方法可能会产生太多的块,因为它关注于样本中的预测性能。学习GF P SDOs的第一阶段预测方法是利用Etools来控制过拟合(使yi不受yi太大的影响),但仍可能产生许多独特的Y水平,这是序列分配器关注的全部问题。我们需要将学习GF、P和构造分配的联合过程处理为一种组合分区方法,利用CV来控制最终的复杂度(块数)。如果我们想要一种可以创建块数小于最大值的分区的cecond-stage分区方法,我们可能想要比顺序分配器更复杂。选项包括:这里也可以使用预生成的YPRE1,但除非使用不同的算法估计,否则它不会提高性能。o简单:一个缩放的顺序分配器,它创建的块比N/CB少,但大小仍然大致均匀。这很简单,但远不是最优的。o复杂:由于我们只处理单个维度,将有许多可能的分区,我们可以联合优化拆分规则,而不是使用诸如CART之类的贪婪解决方案。一个简单的方法是从分位数拆分开始,然后使用坐标下降顺序地优化每个拆分,直到没有任何变化。不管实际使用的划分方法是什么,复杂度仍然应该根据CVPerformance来调整。由于这是一个两阶段的过程,对于每个迭代f,我们使用除fold f以外的所有数据学习一个单独的GFF P Sandpartition,创建每个块中的平均预后Score的结果预测,然后查看fold f上的样本外性能。2.5在FPS和Vst之间做出决定有不同的方法根据可用数据确定使用哪种策略:o如果还有另一个预处理期,如果不是,那么我们可以使用交叉验证来比较性能,这里我们在不同的模型类型之间选择,而不是在单个模型类型的不同超参数之间选择。鉴于我们需要有足够的单位每块,一个2倍的CV版本是最好的,以最大限度地保持折叠的大小。可以通过多重乘子分裂对结果进行平均以降低噪声。请注意,这在较大的数据集上效果最好。在决定使用哪种策略后,考虑到可能存在时间依赖性,我们使用themodel在使用YPre2而不是YPre1.2.6不同的前期数据2.6.1时变协变量时生成分区。如果存在时变协变量Zit,那么它们应该以与YPre2相同的方式使用。在对ypre2建模时使用zpre1,然后使用更新的值zpre2来构造最终的分区。2.6.2+pre-periods使用更多的时间周期,我们可以改进过程的几个部分。一种选择是使用上述策略和额外的前瞻性预测。o变量选择:使用变量M={ypre2,ypre1,X,ypre1,ypre2}并直接或通过针对Ypre3的初始特征选择方法构建分区。oFPS:从Ypre3≈gF P S+(ypre2,ypre1,X)生成预测值。第二种选择是使用Ypre3在减少估计的MSE和标准误差的目标之间找到最佳权衡。对于使用来自{ypre2,ypre1,X}的数据创建的每个候选分区,可以模拟不同的随机化,然后计算平均值。我们注意到,另一个简单的替代方案是使用针对ypre2的Cart并在ypre2=gf P S(X,ypre1)上阻塞来创建分区。
|