|
选择验证数据的方式应确保重复样本属于培训或验证数据集。根据观察日期,将数据分为训练集。2014年至2015年,总共360天,跨度约一年半。对数据进行划分,以便首先有50天的训练数据,然后是10天的测试数据。下一组包括前50天和后50天,并在两组之后的10天进行测试。整个数据集都遵循这种模式,因此第七个测试集将在350天内进行训练,并在360天中的最后10天进行测试。此外,在一个窗口中显示训练数据,以便从观察期开始(但不在集合之间重置)一次在最新的50个样本上训练模型。数据集培训日测试日1。1-50 51-602. 1-100 101-1103. 1-150 151-1604. 1-200 201-2105. 1-250 251-2606. 1-300 301-3107. 1-350 351-360表2:在50天的训练序列中使用的数据集划分。2.2. 检测跳跃(输出数据)为了检测股价的跳跃,我们使用Lee和Mykland(2008)提出的算法。由于跳跃是短期预测的,因此在观察期内每分钟收集一次样本。这提供了一个可能发生跳变的一分钟窗口,允许在接下来的一分钟内将这些样本分类为有跳变或无跳变。我们在整个采样周期内运行跳转检测算法,以收集必要数量的跳转样本。用于估计双功率变化的数据窗口长度为600分钟。检测到的跳跃频率如表3所示。平均而言,每只股票每天大约有三次跳跃。然而,跳跃在两天之间并不是平均分配的。
|