楼主: 可人4
2579 20

[量化金融] 基于ARIMA-LSTM混合模型的股价相关系数预测 [推广有奖]

11
何人来此 在职认证  发表于 2022-6-10 09:16:33
该过程一直重复到最后一个时间步数据。然后,启动通过时间反向传播(BPTT)过程,其中更新权重矩阵。本文将不进一步说明BPTT过程。有关详细说明,请参阅S.Hochreiter和J。Schmidhuber关于长短期记忆的文献(1997)[16]。图1中的A单元可以用各种类型的单元代替。在本文中,我们选择了F.Gers等人(1999)[8]提出的带遗忘门的标准LSTM单元。本文所采用的LSTM单元由四个交互式神经网络组成,每个神经网络分别表示伪造门、输入门、输入候选门和输出门。忘记网关输出元素值介于0和1之间的向量。作为目标,乘以细胞状态Ct-1从前一个时间步中删除不需要的值,并保留预测所需的值。ft=σ(Wf·[ht-1,xt]+bf)σ函数,在图2中也用相同的符号表示,是逻辑函数,通常称为sigmoid。它作为激活函数,为模型启用非线性功能。σ(X)=1+e-XIn下一阶段,输入门和输入候选门操作将一起渲染新的单元状态Ct,它将作为更新的单元状态传递到下一个时间步骤。输入门使用sigmoid作为激活函数,输入候选使用双曲正切,每个输出itandCt。应在新的细胞状态Ct中反映出▄C中的ITS选择特征。it=σ(Wi·[ht-1,xt]+bi)~Ct=tanh(WC·[ht-1,xt]+bC)tanh函数,在图2中也表示为“tanh”,是双曲正切。与渲染值介于0和1之间的sigmoid不同,双曲余弦输出值介于-1和1之间。tanh(X)=eX- e-XeX+e-X图1。

12
能者818 在职认证  发表于 2022-6-10 09:16:36
递归神经网络的结构图2。长-短期存储单元的内部结构最后,输出门决定要选择的值,并与tanh应用状态Ctas输出ht相结合。新的细胞状态是前细胞状态Ct应用的遗忘门的组合-1和牛顿应用状态Ct。ot=σ(Wo·[ht-1,xt]+bo)Ct=英尺·Ct-1+it·▄Ctht=ot·tanh(Ct)单元状态Ct和输出Ht将传递到下一个时间步骤,并将经历相同的过程。根据任务的不同,进一步的激活函数(如Softmax或双曲正切)可以应用于ht。在本文中,这是一个回归任务,其输出值介于-1和1之间,我们将双曲正切函数应用于数据向量X的最后一个元素的输出。图2提供了一个可视化说明,以帮助理解LSTM单元的内部结构。4研究方法4.1 ARIMA4.1.1在本文中,我们决定利用标准普尔500指数公司的调整收盘价。下载了2008年1月1日至2017年12月31日标准普尔500指数的价格数据。数据丢失值的比例很小。每项资产的价格数据缺失率约为0.1%,但有一项资产的股票代码为“MMM”,其缺失率约为1.1%。虽然MMM的比率并不高,但缺失数据插补似乎不太可能,因为缺失值是连续几天发现的,在时间序列中造成了巨大的鸿沟。计算相关系数时,这可能会导致失真。因此,我们将MMM排除在我们的研究之外。对于其他资产,我们用所有资产的时间t-1的值来估算时间t的缺失数据。然后,我们从完全插补的价格数据集中随机选择了150只股票。

13
kedemingshi 在职认证  发表于 2022-6-10 09:16:40
随机选出的150家公司的报价人列入“附录A”。使用完全插补的150组价格数据,我们计算了100天时间窗口内每对资产的相关系数。为了增加多样性,我们设置了五个不同的起始值,第一、第21、第41、第61和第81,并且每个值都应用滚动100天窗口,以100天的步幅,直到数据集结束。此过程呈现55875组时间序列数据(C·5),每个数据具有24个时间步长。最后,我们用55875×24的数据生成了train、development和test1&2数据集。我们通过在模型评估阶段实施向前走优化[15],将数据拆分如下列车组:索引121·开发组:索引222·测试1组:索引323·测试2组:索引424https://en.wikipedia.org/wiki/List在S%26P 500公司中(2018年5月23日访问),我们利用Quandl API下载股票价格数据(https://github.com/quandl/quandl-python)图3:。数据生成方案4.1.2模型拟合在拟合ARIMA模型之前,必须指定模型的顺序。ACF图和PACF图有助于决策过程。如表1所示,大多数数据集显示出一种似乎接近白噪声的振荡趋势。其他值得注意的趋势包括增加/减少趋势、偶尔的大跳水,同时稳定的相关系数,以及混合振荡稳定周期。

14
可人4 在职认证  发表于 2022-6-10 09:16:43
尽管ACF/PACF图表明大部分数据集接近白噪声,但几个顺序(p,d,q)=(1,1,0),(0,1,1),(1,1),(2,1,1),(2,1,1),(2,1,0)似乎适用。我们将ARIMA模型与这五个订单进行匹配,并为每个序列/开发/测试1/测试2数据集的数据选择AIC值最小的模型。我们用来计算AIC度量的对数似然函数的方法是最大似然估计。在拟合ARIMA模型后,我们为每21个时间步生成预测,以计算残值。然后,每个数据的最后一个数据点将作为目标变量Y,其余数据点作为变量X(图3)。新的X/Y分割数据集将是下一个LSTM modelsector的输入值。我们利用金字塔模型来拟合ARIMA模型(https://github.com/tgsmith61591/pyramid)表1:。值得注意的趋势和1级差异数据的ACF/PACF 4.1.3算法算法1。ARIMA模型拟合算法1:数据集=[训练,开发,测试1,测试2]2:顺序=[(1,1,0),(0,1,1),(1,1,1),(2,1,1),(2,1,0)]3:对于数据集中的所有数据do4:X=空列表5:Y=空列表6:对于数据中的所有时间序列T do7:模型=空列表8:对于订单中的所有订单do9:Morder=fit ARIMA(T,order)10:将Morderto添加到模型11:使用AIC模型M fitin models12:残差=X-预测(T,M fit)13:将残差[0:20]添加到X14:将残差[20]添加到Y15:保存X,Y4.2 LSTM4.2.1数据我们使用随机选择的150只标普500股票的ARIMA模型得出的残差值作为LSTM模型的输入。数据集包括序列X/Y、开发X/Y、测试1 X/Y和测试2 X/Y。每个数据集有55875行,包含20个时间步,每个时间序列对应一个Y数据集(图3)。

15
可人4 在职认证  发表于 2022-6-10 09:16:47
数据点通常在0左右,因为输入是一个残差数据集(图4)。4.2.2模型训练我们任务的模型架构是一个使用25个LSTM单元的RNN神经网络。25个LSTM单元的最后输出与一个完全连接的层合并为一个值。然后,该值将通过双倍双曲正切激活函数传递,以输出单个最终预测。双曲线切线是简单的双曲线。我们利用keras模块来训练LSTM模型(https://github.com/keras-team/keras)图4:。按系数2缩放的数据点分布切线函数。图5显示了模型的简化架构。在培训模型时,关注过度匹配是至关重要的。当模型在训练时过度拟合数据集时,就会发生过度拟合。因此,列车数据集的预测性能较高,但其他新引入的数据的预测性能较差。为了监视此问题,使用了一组独立的开发数据集。我们使用火车数据集训练LSTM模型,直到火车数据集和开发数据集上的预测性能变得相似。脱落法是一种广泛使用的防止过度配合的方法。它阻止神经元发展相互依赖性,从而导致过度匹配。这是通过在训练期间以概率p简单地转动网络中的神经元来实现的。然后,在测试阶段,禁用退出,并将每个权重值乘以p,以将输出值缩小到所需的边界。此外,辍学还具有训练多个神经网络和平均输出的效果【14】。除了辍学,我们考虑了更多的正规化,以防止过度匹配。主要有两种类型的正则化方法:套索正则化(L1)和岭正则化(L2)。

16
nandehutu2022 在职认证  发表于 2022-6-10 09:16:50
这些正则化器可以防止LSTM模型中每个网络的权重值变得过大。每个层的大参数值可能会导致网络严重聚焦于少数特征,这可能会导致过度拟合。具有正则化的误差函数的一般表达式如下所示。nXi=1{Yi- (W·Xi+b)}+λWkXi=1kXj=1Wij+λblXi=1lXj=1bij参数λWandλb确定代价函数正则化的强度。如果lambda值太高,则模型训练不足。另一方面,如果它们太低,正则化的影响将是最小的。在我们的模型中,经过反复试验,结果表明,不应用任何正则化的效果更好。我们尝试了更复杂的带有正则化的体系结构,但对于所有体系结构,没有正则化的模型都有更好的输出。训练神经网络模型时要注意的另一个问题是消失/爆炸梯度。这对于RNN来说尤其重要。由于时间的深度传播,远离输出层的梯度往往非常小或很大,从而妨碍了模型的正确训练。解决此问题的方法是LSTM单元本身。LSTM能够在不丢失信息的情况下连接大时间间隔【16】。有关培训过程的其他杂项细节包括使用500号小批量、ADAM优化函数等。有关详细信息,请参阅“附录B”中的LSTM部分源代码。4.2.3评估评估方法采用向前走优化方法【15】。向前走优化要求为每个滚动时间间隔安装一个模型。然后,对于每个时间间隔,在下一个时间步骤中测试新训练的模型。这确保了模型拟合策略的稳健性。

17
nandehutu2022 在职认证  发表于 2022-6-10 09:16:53
然而,这个过程在计算上很昂贵。此外,本文的目的是确定一个模型的参数,该模型可以很好地概括各种资产以及不同的时间段。因此,无需培训多个模型来批准模型拟合策略。我们没有为每个滚动列车组窗口训练新模型,而是决定用第一个窗口训练单个模型,并将其应用于三个时间间隔,即开发集和测试1/测试2集。我们选择了具有均方误差(MSE)度量的最优模型。也就是说,我们模型的成本函数是MSE。为了进一步评估,还研究了平均绝对误差(MAE)和均方根误差(RMSE)。图5:。LSTM模型扇区架构MSE=nPni=1(yi- ^yi)MAE=nPni=1 | yi- ^yi |然后在最近两个时间段对选定的最优模型进行测试。我们使用两个单独的数据集来测试模型,因为开发集也需要参与学习过程。如果该模型对两个时间段的相关系数预测也不错,那么我们将对照以前的财务预测模型对我们的模型进行测试。四个财务模型的MSE和MAE值也进行了计算。对于常数相关模型和多组模型,我们将随机选择的150项资产作为投资组合构成。4.2.4算法算法2。

18
大多数88 在职认证  发表于 2022-6-10 09:16:56
LSTM模型训练算法1:读取[序列X/Y,开发X/Y,测试1 X/Y,测试2 X/Y]2:定义模型3:添加LSTM(单位=25)4:添加稠密(形状=(25,1),激活=\'double-tanh\')5:重复6:使用序列X7向前传播模型:使用序列Y8向后传播模型:更新模型参数9:序列MSE,序列MAE=模型(序列X,序列Y)10:开发MSE,开发MAE=模型(开发X,开发Y)11:如果使用序列MSE,dev MSE converged12:end Repeat13:test1 MSE,test1 MAE=model(test1 X,test1 Y)14:test2 MSE,test2 MAE=model(test2 X,test2 Y)5结果和评估在大约200个时期后,列车数据集的MSE值和developmentdataset的MSE值开始收敛(图6)。MAE学习曲线也呈现出类似的趋势。在这些模型中,我们选择了247thepoch的模型。根据过度匹配指标和性能指标确定新纪元。过度拟合指标用train&developmentdataset之间MSE差异的标准化值表示。性能指标用训练与开发数据集的MSE和的归一化值表示。然后,计算两个归一化值之和,以找到具有最小值的历元。标准的数学表示如下。标准=diffMSE- 平均值(diffMSE)标准偏差(diffMSE)+总和- 利用所选的ARIMA-LSTM混合模型,计算预测的MSE、RMSE和MAE值。development、test1和test2数据集上的MSE值分别为0.1786、0.1889和0.2154。这些值的变化很小,这意味着该模型得到了同等的推广。然后,将指标值与其他金融模型的指标值进行比较。在金融模型中,常数相关模型在我们150只标准普尔500指数股票的数据集上表现最好,正如E.J.Elton等人的实证研究所显示的[3]。

19
可人4 在职认证  发表于 2022-6-10 09:17:01
然而,其性能目前接近ARIMA-LSTM混合模型的预测能力。ARIMALSTM的MSE值几乎是其他等效模型的三分之二。MAE指标也表现出明显的优异表现。表2展示了每个模型的每个数据集的所有度量值。每个度量值的最小值为黑体。在这里,我们可以很容易地注意到ARIMA-LSTM模型的所有度量值都是黑体的。为了进一步调查,我们在标普500公司的不同资产上测试了我们的最终模型。除了我们已经选择用来训练模型的150个资产外,我们随机选择了10个资产,并生成了与模型训练和测试中使用的数据集具有相同结构的数据集。这将生成180行数据。然后,我们将数据传递到ARIMA LSTMhybrid模型中,并使用MSE、RMSE和MAEmetrics对预测进行评估。我们将此过程迭代10次以检查模型的稳定性。表3显示了10次迭代的输出。10次迭代的MSE值范围为0.1447到0.2353。虽然与测试1和2相比,结果有一些变化,但这可能是由于样本量相对较小,并且模型的出色性能使其可以忽略不计。因此,我们可以仔细确认ourARIMA LSTM模型是稳健的。图6:。ARIMA-LSTM模型训练过程开发数据集Test1数据集Test2数据集RMSE MAE RMSE MAE MSE RMSE MAE RMSE MAEARIMA-LSTM的学习曲线。1786 .4226 .3420 .1889 .4346 .3502 .2154 .4641 .3735完整历史记录。4597 .6780 .5449 .5005 .7075 .5741 .4458 .6677 .5345常数相关性。2954 .5435 .4423 .2639 .5137 .4436 .2903 .5388 .4576单指数。4035 .6352 .5165 .3517 .5930 .4920 .3860 .6213 .5009多组。3079 .5549 .4515 .2910 .5394 .4555 .2874 .5361 .4480表2。ARIMA-LSTM模型性能结果及其比较。

20
能者818 在职认证  发表于 2022-6-10 09:17:04
股票代码MSE RMSE MAEPRGO、MRO、ADP、HCP、FITB、PEG、SYMC、EOG、MDT、NI。2025 .4500 .3732STI、COP、MCD、AON、JBHT、DISH、GS、LRCX、CTXS、LEG。1517 .3895 .3331TJX、EMN、JCI、C、BIIB、HOG、PX、PH、XEC、JEC。1680 .4099 .3476ROP、AZO、URI、TROW、CMCSA、SLB、VZ、MAC、ADS、MCK。1966 .4434 .3605RL、CVX、SRE、PFE、PCG、UTX、NTRS、INCY、COP、HRL。2353 .4851 .3951FE、STI、EA、AAL、XOM、JNJ、COL、APC、MCD、VFC。2175 .4664 .3709BBY、AXP、CAG、TGT、EMR、MNST、HSY、MCK、INCY、WBA。1447 .3804 .3094BXP、HST、NI、ESS、GILD、TSN、T、MSFT、LEG、COST。1997 .4469 .3518CVX、FE、WMT、IDXX、GOOGL、PKI、EQIX、DISH、FTI、HST。1785 .4225 .3331NKE、VAR、DVN、VRSN、PFG、HAS、UNP、EQT、FE、AIV。2168 .4656 .3742表3。ARIMA-LSTM对不同资产组合的测试结果6结论我们实证研究的目的是提出一个优于现有财务相关系数预测模型的模型。我们采用ARIMA-LSTM混合模型,试图在ARIMA建模步骤中首先过滤线性,然后在LSTM递归神经网络中预测非线性趋势。测试结果表明,ARIMA-LSTM混合模型的性能远远优于其他等效财务模型。通过MSE、RMSE和MAE等不同指标,在不同时间段和不同资产组合上验证了模型性能。这些值几乎是常数相关模型的一半,在我们的实验中,常数相关模型在四种金融模型中表现最好。从这种表现来看,我们可以假设ARIMA-LSTM混合模型具有足够的预测潜力。因此,ARIMA-LSTM模型作为投资组合优化的相关系数预测工具将是相当可观的。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 07:17