楼主: nandehutu2022
1067 28

[量化金融] 估计动态条件扩散密度以优化每日 [推广有奖]

21
可人4 在职认证  发表于 2022-6-14 07:39:16
滚动窗口分析将继续进行,直到创建当前价差的所有预测,包括383个数据点。该过程是在Intel Core i7 2.9 GHz处理器上跨8核并行执行的,耗时216小时。算法3的滚动窗口分析使用正态分布对所有导致基准预测的D(s)进行重复。我们注意到,模型的估计并不总是在GAMLSS框架内收敛,某些利差无法与我们的模型、基于正态分布的模型或两者都匹配,这主要是由于数据集。例如,在02-03小时之间获得的扩散主要由噪声控制,其中的数据集由0组成,这在权重更新计算期间产生了问题。算法3滚动窗口分析1:对于每个排列数s=1。。。,276 do2:使用最佳选择的分布D(s)(见图1)3:对于预测数t=1。。。,383 do4:提取训练数据设计矩阵X(s)列车∈ RT×9,其中T=[T,T+1534- 1] 5:初始化迭代编号j← 06:初始化模型CM(s,t)j← {bβ(s,t)k,j}k=1∈ RJk+1×4使用RS算法7:而anybβ(s,t)k,jin在5%do8时显著:j← j+19:寻找最具影响力的系数。bβ+(截距除外)跨越所有k10:从k的等式和X(s)序列中移除与bβ+相关的外部变量11:重新估计模型cm(s,t)j← {bβ(s,t)k,j}k=1使用RS算法12:使用modelcM(s,t)创建一步超前预测,结果是θ(s)t=[u(s)t,σ(s)t,ν(s)t,τ(s)t]T13:使用公式计算时间步长t+1的预测期望值E(bYt)。

22
何人来此 在职认证  发表于 2022-6-14 07:39:19
对于Dsandθ(s)t4.1结果分析,结果分两个阶段进行分析:(1)获得我们的模型预测的弹球损失性能测量值与基准预测值之间的差异;(2)对两个弹球失球表现指标之间的差异是否具有统计显著性进行官方统计显著性(Diebold Mariano)测试。首先,我们使用算法4获得模型和基准的PL性能度量,其中对于基准D(s),我们使用所有利差的正态分布。算法4使用弹球损失函数进行模型评估1:对于每个排列数s=1:276 do2:提取t=1535…上预测的参数。。。,1917使用D(s),θ(s)∈ R383×43:对于预测时间步长t=1。。。,383 do4:获得分位数q(s)t的向量∈ RJausingθ(s)t5:对于每个分位数qa,tdo6:使用公式117计算PL值L(s)t(qa,yt):使用公式128计算PL分数L(s)t(qa,yt):使用公式13计算PL性能度量L。如果在分析我们的模型期间,对于给定的价差数s收敛问题,则忽略该时间步的预测(并在PL平均值计算中考虑)。偏态分布丢失至少1个预测的次数为46次(383个时间步中最多70个)。如果383个预测时间步长中有200多个缺失,则结果被判定为不可靠,且息差预测被视为不可用;这发生了276次,其中有4次是在小时之间传播的:2012年3月2日,2005年3月3日,2014年13日。正常基准也存在收敛问题,至少一个预测缺失的次数为5次(383个时间步中最多42个)。

23
可人4 在职认证  发表于 2022-6-14 07:39:22
超过200个时间步的预测缺失次数更频繁,在小时间隔的276次预测中,有13次发生:01-12/13/14/23;02-03/23; 05-13; 06-12/13/14/15/16; 07-08.当发生这种情况时,我们判断我们的模型对该价差数s的结果更好。图3:偏态分布与正态分布的预测能力-PL分数的差异。我们报告了使用我们的模型获得的损益绩效指标与每个利差数s的基准之间的差异(见图3,其中负值(蓝色、绿色)表明我们的模型优于使用该利差数s的正态分布获得的基准)。初步结果为5 d.p.,这些结果表明,对于276个价差,我们的模型更准确地预测了全密度:258次,而正态分布为18次。将小数位减少到3,会导致相同数量的正态分布具有较小的误差值(18倍),但现在的结果表明,对于5个价差,正态分布产生的效果与我们模型中使用的分布一样好,而对于253个案例,我们的模型产生的预测更准确。由于利差价格数据的高度偏斜和kurtotic性质,使用偏斜型分布获得的模型的绝大多数参考值都是负值。接下来,我们寻求就我们的模型和基准之间的损益绩效衡量之间的差异建立一个正式的重要测试。4.1.1 Diebold-Mariano检验为了对最佳选择分布的表现得出具有统计意义的结论,当预测未知数据点超过正态分布预测的准确性时,我们使用Diebold-Mariano(DB)检验(Diebold和Mariano,2002)。

24
mingdashike22 在职认证  发表于 2022-6-14 07:39:25
该检验适用于无零均值、非高斯、可能是连续/同时相关的预测误差。我们使用了标准DB测试的一种变体,并采用了(Harvey et al.,1997)提出的实施方案。对于每个排列数s,有t=1。。。,383由两个模型(cM(s,t)-用最佳选择分布估计和cM(s,t)-用正态分布估计)生成的预测,使用5%显著性水平的单侧检验相互检验。无效假设是两个模型具有相同的预测精度,而单边替代假设是最佳分布的预测能力优于正态分布的预测能力,H:E(M、 M、t、s)≤ 0,其中损失差异序列M、 M、t、sisM、 M,t,s=| L(s,1)t |- |L(s,2)t |(14)其中s是排列数,t是预测时间步,\'L(s,1)t在预测步骤t使用最佳选择分布获得的模型cm(s,t)的平均分位数得分,L(s,2)t在预测步骤t使用正态分布获得的模型CM(s,t)的平均分位数得分。图4显示了p值,结果表明,在276个利差中:(a)最佳Chosend分布在预测利差方面明显更好:161次为5%(亮绿色),15次为10%(橄榄绿色)。注:用于学习这176个模型的分布为:JSU-9次、SEP1-14次、SEP2-16次、ST1-13次、ST2-18次和ST5-106次(*100 = 64.5%).(b) 这些模型对48个利差具有相同的预测能力(即10%时不能拒绝无效假设)。注:用于学习相应48个模型的分布为:JSU-9次、SEP1-4次、SEP2-8次、ST1-8次、ST2-4次和ST5-15次(* 100 = 31.25%).

25
可人4 在职认证  发表于 2022-6-14 07:39:28
(c) 由于分位数估计收敛问题导致至少1个预测缺失,因此无法获得使用最佳选择分布49次(上三角空白)获得的模型的结果。注:用于学习这49个模型的分布为:JSU-4次、SEP1-8次、SEP2-21次、ST1-9次、ST2-5次和ST5-2次(*100=4%)(即,这通常发生在除ST5以外的地鼠身上)。我们专注于选择合适的四参数分布,以最好地拟合单个利差数据,并对此类分布的预测能力进行详细分析。根据上述分析结果,发现:(a)ST5分布最常被选为最佳分布图4:Diebold Mariano测试p值(5%显著时为绿色,10%显著时为橄榄色,红色)。通过基于y的简单分布~ 1和基于RMSE和PL函数的基于因子的分布函数;(b) ST5分布是使用Gamlss函数qFUN(例如qST5)收敛分位数估计的最可靠的分布,尤其是对于q、q、q、q、q的极端分位数,其中其他分布(如SEP1、SEP2)往往失败。分位数估计对我们的研究很重要,因为它们用于比较两个模型的性能的统计测试,以及用于交易策略优化的风险价值计算。例如,损益计算表明,对于49个利差,至少有一个预测步骤(383个步骤中)未能从估计模型中提取95个分位数。进一步检查后发现,在49个矿点中,只有4%的矿点将ST5作为模型估计的基础分布。

26
nandehutu2022 在职认证  发表于 2022-6-14 07:39:31
这支持了我们的观点,即ST5是分位数估计的可靠分布;(c) 根据根据验证数据计算的损益绩效衡量,选择每个价差的最佳分布。每个排列有6个可能的分布,从中选择最佳分布,得分最低的一个作为该排列的最佳分布。进一步的分析表明,当ST5以外的其他分布被选为“最佳”时,有三分之一的情况下,ST5是次优分布,平均只差1.44%。然而,对于ST5是最佳分布的分布,损益绩效指标平均好4.84%,这表明最佳分布与ST5相比没有显著差异的可能性。因此,我们得出结论,如果希望在所有利差中使用单一分布,则ST5分布是一个稳健的选择。我们继续使用更详细的方法进行分析,其中各个利差确定了分配给它们的最佳利差分布。4.1.2估计模型的示例为了验证动态建模的必要性,我们展示了在第一个滚动窗口(即用于规范和估计阶段的前1534个数据点)获得的四个示例价差的拟合矩的演变及其相关分布:00-08(ST1);08-12(ST1);12-16(ST1);16-20(ST5)。四年内潜在的4个中心时刻的演变,即检查每年如何选择4个传播。我们选择了四年:2012年、2013年、2014年、2015年,以描述这些时刻随时间的演变和变化动态。

27
mingdashike22 在职认证  发表于 2022-6-14 07:39:34
每个分布参数的演变绘制在单独的图表上(参见图5了解^u的演变,图6了解^σ的演变,图7了解^ν的演变,图8了解^τ的演变)。结果表明,平均值与真实价差的预期值一致,08-12小时之间的价差趋于正值(即晚一小时更便宜),而16-20小时的价差为负值,即晚一小时更贵。夜间(不太繁忙)和清晨/下午(绿线和蓝线)之间的差价标准差最高。而偏度在08-12小时趋于正,在00-08小时趋于负。图5:2012年(a),(b)2013年,(c)2014年,(d)2015年(最佳dist)的fifitted^u演变。图6:最佳地区的fitted^σ演变,年份:(a)2012年,(b)2013年,(c)2014年,(d)2015年。图7:最佳dist的fitted^ν的演变,年份:(a)2012年,(b)2013年,(c)2014年,(d)2015年。图8:最佳分布的拟合τ的演变,年份:(a)2012年,(b)2013年,(c)2014年,(d)2015年。接下来,我们绘制四年期息差的真实E(Y)、与实际E(bY)预期值,选择与上述不同的息差时间,以显示所使用的各种基础分布:00-09(SEP2)、08-11(SEP1)、11-19(ST2)、16-22(ST5)。图9显示了息差的真实演变,与估计模型产生的预期值相比(见图10),请注意,规模稍小。设定的预期值在每年都遵循真实的模式,例如,16-22小时的铺展在夏季往往有更多的负值(即较早时间的电价较低),而在冬季则有更多的正值(即较早时间的电价较高)。

28
能者818 在职认证  发表于 2022-6-14 07:39:37
可以看出,如地块规模的差异所示,已确定的价差值略低于已确定的价差值。图9:真实价差的演变E(Y),年份:(a)2012(b)2013(c)2014(d)2015。图10:固定价差的演变,年数:(a)2012年(b)2013年(c)2014年(d)2015年。一天中4个潜在中心时刻的演变说明了分布参数在一天中以及一年中不同时间的变化。我们绘制了2015年1月1日、2015年3月1日、2015年6月1日和2015年9月1日276个价差的四个参数,即本季每天绘制一个图。按顺序绘制排列图,从午夜的23个排列开始,每天的分配时间为00-01, 00 - 02, ..., 00- 23,然后是第01小时的22个时段以及所有其他时段,持续到第22和23小时之间的最后一个时段。2015年选定的四天内,每一天共绘制276个利差。结果显示,由于分布在00小时与所有其他时间、01小时与所有其他时间之间移动,因此出现周期性峰值。我们显示了分布参数在一年四季中的变化动态(见图11)。图11:2015年4天绘制的全天固定中心矩的演变图(a)平均值(灰色框显示午夜与所有其他时间的分布)(b)波动性(c)偏度和(d)峰度。为清晰起见,下面给出了详细说明相同日内信息的曲线图,但仅针对所选的4个示例小时与所有其他小时(00-;08-;12-;16-)的价差。例如,显示2015年不同天数平均值的数字(见图12)具有子图(a-d),在图11的灰色虚线框中显示。

29
可人4 在职认证  发表于 2022-6-14 07:39:40
注:当从(a)到(d)时,子图x值范围缩小,因为午夜00在一天中的所有小时都会传播,但16小时仅在其他7小时传播。图12:2015年所选4小时内全天fitted^u的变化。图中显示的小时数与一天中随后的所有其他小时数分布在一起(a)午夜(b)08(c)12和(d)16。图13:2015年所选4小时内全天fitted^σ的演变。图中显示的小时数与一天中随后的所有其他小时数分布在一起(a)午夜(b)08(c)12和(d)16。图14:2015年4个小时内全天fitted^ν的变化。图中显示的小时数与一天中随后的所有其他小时数分布在一起(a)午夜(b)08(c)12和(d)16。图15:2015年4个小时内全天fitted^τ的演变。图中显示的小时数与一天中随后的所有其他小时数分布在一起(a)午夜(b)08(c)12和(d)16。同一天不同排列的解释变量系数的大小和符号的变化说明了驱动因素的不同影响(见表5和表6,其中显示了所选4个排列的估计系数:00-08;08-12;12-16;16-20)。系数从第一个滚动窗框的模型估算中提取,即t=1。。。,系数的显示值为5%,因此形成了该时刻的方程式。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-3-12 06:52