楼主: nandehutu2022
1025 28

[量化金融] 估计动态条件扩散密度以优化每日 [推广有奖]

11
能者818 在职认证  发表于 2022-6-14 07:38:46
倾斜t类型3和4也不适用,因为它们仅定义为正倾斜,但传播数据通常是负倾斜的。表1中每个分布的随机变量Yt的期望值由E(Yt)=ut+σtE(Zt)给出,其中Zt=Yt-utσ是yt的归一化值,Zt分别为每个分布规定,andContinuous DistributionuσντJohnson的SU(uthe mean)(JSU)标识日志标识日志Johnson的原始SU(JSUo)标识日志标识日志标识日志偏移幂指数类型1(SEP1)标识日志标识日志偏移幂指数类型2(SEP2)标识日志标识日志偏移幂指数类型1(ST1)标识日志标识日志标识日志偏移t类型2(ST2)标识日志标识日志标识日志偏移t类型5(ST5)标识log identity logTable 1:连续四参数分布-GAMLSS中的合适分布。ut、σt、νt、τtar是时间步长t处给定分布的平均值、标准偏差、偏度和峰度。有关每个分布的预期值计算的详细信息,请参见附录B.1-B.4。3模型选择为了建立准确的价差模型,我们首先分析表1中七种可能的分布中哪一种最适合每个价差数据。我们还分析了使用单一分布对所有利差数据进行建模是否可行,并为这何时可能有益提供了理由。分析分为两个主要步骤:(a)简单分布,其中表1的每个分布都与训练数据集中的利差相匹配,Akaiki信息标准(AIC)用于评估分布的优度;和(b)基于因素的分布,其中对于每个传播小时,利用步骤(a)分析得出的候选分布,使用外部因素构建模型。

12
nandehutu2022 在职认证  发表于 2022-6-14 07:38:49
使用验证数据集和许多拟合优度度量来评估这些模型的拟合度。3.1简单分布拟合使用GAMLSS函数GAMLSS<-y执行简单分布拟合~ 1,得出特定分布和时间序列y下的amodel。使用训练数据进行分析,训练数据由前60%的传播时间序列Ytrain组成∈ R1150×276。因此,对于每个排列数=1。。。,276且每个分布i=1。。。,在表1的第7部分中,我们构建了一个模型cm(s,i)← y(s)列车~ 1,结果incm∈ R276×7模型。modelscM的AIC标准∈ R、 对于排列数s,按升序排列,与AIC标准最低的模型对应的分布被选择为“最佳t分布”。结果表明,根据这一简单的选择标准,斜t型5分布最常被选为最佳分布(见表2)。紧随其后的是同一家族的倾斜t型1分布。总的来说,除JSUo外的所有分布都表明在某些传播时间内可能是最佳的。附录图29显示了选择每个分销的更详细的利差细分。我们使用基于因子的分布fit方法进一步分析了六种可能的分布。JSU JSUo SEP1 SEP2 ST1 ST2 ST549 0 38 14 68 33 74表2:简单分布拟合(训练数据)-基于AIC的最佳分布选择。3.2基于因子的分布拟合简单分布拟合的结果表明,七个连续四参数分布中有六个可用于建模电力价差数据(见表2),即D(1)-JSU、D(2)-SEP 1、D(3)-SEP 2、D(4)-ST1、D(5)-ST2和D(6)-ST5。

13
何人来此 在职认证  发表于 2022-6-14 07:38:52
因此,我们继续进行基于因子的分析,在GAMLSSF框架内使用外生变量对候选分布的每个参数进行回归。训练数据集由相关的Ytrain组成∈ R1150×276和独立XTRAIN∈ R1150×9×276变量,其中对于每个排列数s,在分布D(i)下,i=1。。。,6,中心力矩的初始方程为but=bβ1,0+bβ1,1xt++bβ1,8x8,t=xTtbβ(6)对数(bσt)=bβ2,0+bβ2,1xt++bβ2,8x8,t=xTtbβ(7)bνt=bβ3,0+bβ3,1xt++bβ3,8x8,t=xTtbβ(8)log(bτt)=bβ4,0+bβ4,1xt++bβ4,8x8,t=xTtbβ(9),其中bβk=[bβk,0,bβk,1,…,bβk,8]t∈ Ris分布参数k的系数初始向量,xt=[1,x1,t,…,x8,t]t∈ Ris为自变量的初始向量,其中xis为滞后日前电价的差价,xis为天然气远期日电价,xis为煤炭ARA远期日电价,xis为风力日前预测的差价,xis为太阳能日前预测的差价,xis为周末/节假日取值1的dummyvariable,xis为日前总负荷预测的差价,xis交互负载变量。通过迭代更新每个时刻的方程来指定模型,其中,通过逐个删除最不重要的变量并重新估计模型,直到所有变量在5%时显著(见算法1)。这将导致incM∈ R276×6包含估计系数的模型。注:该过程表明,某些分布不适合在GAMLSS框架下对某些分布进行建模。

14
大多数88 在职认证  发表于 2022-6-14 07:38:55
对于某些分布参数,通常为τ,偶尔为u(见附录F节),未实现收敛,当出现这种情况时,该分布被从该分布的候选名单中删除。使用基于因子的分布函数估计的模型通过四种方式进行分析:(1)在训练数据上产生预期值函数,(2)在验证数据上产生预期值函数(在数据点t=1151,…,1534处,包含下一个20%的不可见时间序列),(3)使用均方根误差分析验证数据上的函数优度,(4)使用弹球损失函数度量分析验证数据的拟合优度。算法1基于因子的分布拟合-模型规格和估计1:对于每个排列数s=1。。。,276 do2:提取完整训练数据设计矩阵X(s)列车∈ R1150×9i。e、 时间步长t=1。。。,11503:对于每个分布D(i),i=1。。。,6 do4:初始化迭代编号j← 05:初始化模型CM(s,i)j← {bβ(s,i)k,j}k=1∈ RJk+1×4使用RS算法6:而anybβ(s,i)k,jin在5%do7时显著:j← j+18:寻找最具影响力的系数。所有k9中的bβ+(截距除外):从k的等式和X(s)序列中移除与bβ+相关的外部变量10:重新估计模型CM(s,i)j← {bβ(s,i)k,j}k=1使用RS算法3.2.1期望值拟合训练数据确定的分布参数bθ(i)训练∈ R1150×4×276对于每个分布i=1。。。,6用于确定s=1,…,的培训价格差价数据的合适预期值E(副列)。。。,276过度训练数据点t=1。。。,1150使用公式22-25。附录图30和31分别描述了六种可能分布在00-08和08-12小时之间的分布预期值的示例。

15
nandehutu2022 在职认证  发表于 2022-6-14 07:38:58
实际价差值E(Ytrain)用蓝线表示,而fitted值E(bYtrain)用红线表示。这些曲线图与所有分布的真实数据吻合良好,但差价略有低估。在两个示例利差的情况下,数据中的峰值似乎最适合不同的分布。仅使用SEP2distribution拟合时间步t=360时的排列小时00-08峰值,而时间步t=409时的排列08-12峰值最适合ST2分布。这支持对个人传播数据的六种可能的最佳拟合候选分布进行分析。3.2.2验证数据的期望值拟合拟合模型SCM∈ R276×6,包含每个排列数s=1的估计系数。。。,276在每个分布D(i),i=1。。。,6,用于预测分布参数,bθ(i)验证∈ R383×4×276超出验证数据。我们注意到,使用相同的估计模型cm(s,i)来构建验证时间序列上的预测,即估计系数bβ(s,i)k的每个向量的分布参数k=1。。。,在每个时间步t重复使用4进行预测。一旦预测了分布参数,则使用公式22-25计算价差的预期值。附录图32和33分别描述了六种可能分布中00-08和08-12小时的预测值示例。实际价差E(Yvalidate)用蓝线表示,预测价E(bYvalidate)用红线表示。

16
kedemingshi 在职认证  发表于 2022-6-14 07:39:01
spread 00-08的结果表明,所有分布都能够很好地验证数据,但所有分布的下降峰值似乎都被低估了。对08-12播送小时的预期值预测表明,一些分布比其他分布更适合数据,例如ST1不适合数据,以及ST5.3.2.3拟合优度度量-均方根误差一种常见的性能度量,均方根误差(RMSE),用于评估验证数据集利差预测预期值的优度。RMSE是针对每个排列的预测预期值计算的,s=1。。。,276,根据每个分布D(i),i=1。。。,6,使用RMSE(s,i)=VuText=1EY(s,i)t- E按(s,i)t(10) 由于每个时间步t的期望值是根据所有四个预测参数计算得出的bu(s,i)t,bσ(s,i)t,bν(s,i)t,bτ(s,i)t, RMSE度量提供了基于整体再分配规范预测的拟合优度。结果总结在表3中,并显示ST5分布用于形成与最小误差相对应的模型*100=价差的40%。这与扩展训练数据的简单分布结果一致,这表明ST5通常被选为合适的四参数分布中的最佳分布(见第3.1节)。附录图34和35分别显示了每个排列数和相应RMSE值的最佳分布分配的详细细分。结果表明,13.00、14.00小时的息差最难预测,因为它们的RMSE误差最大(深红色)。JSU SEP1 SEP2 ST1 ST2 ST549 31 21 11 60 110表3:基于因子的分布。

17
可人4 在职认证  发表于 2022-6-14 07:39:04
拟合(验证数据)-基于RMSE的最佳分布。3.2.4拟合优度测量-弹球损失分数我们的模型将整个四个参数分布拟合到每个时间步的价差数据。因此,我们认为使用分位数表示的完整分布来评估拟合优度更合适。弹球损失(PL)函数通常用作分位数回归的目标函数,也可以解释为分位数预测模型的准确性。我们采用这一指标作为我们的主要绩效指标,以选择每个价差的最佳分布。在对每个预测密度功率进行评估时,我们遵循算法2,并概述了计算以下性能度量所涉及的步骤。1每个时间步t的弹球损失值,目标分位数qa,a=1,2。。。,99是通过反转分布D(θ(s,i)t),i=1,…,的累积分布函数提取的。。。,6指定预测分布参数bu(s,i)t,bσ(s,i)t,bν(s,i)t,bτ(s,i)t并与实际输出yt进行比较:L(s,i)t(qa,yt)=1.-a/100qa,t-YIF y<qaa/100yt-qa,tif y≥ qa(11)这导致弹球损失值向量L(s,i)t(q,yt)∈ RJa,其中Ja={99,97,95}是提取的分位数。由于分布尾部的收敛问题,某些分位数在计算全套99个值时无法收敛。为了解决这个问题,我们一次移除一对尾部分位数,并尝试再次提取分位数(即,得到97个分位数:[q,q],如果仍然不收敛,则得到95个分位数[q,q])。如果这仍然不能解决问题,我们将忽略计算该时间步的弹球损失值,并记录此类事件的发生次数,n。注:JSU和ST5提取分位数的成功率为100%,使这两个分布在6个测试中最稳定。

18
何人来此 在职认证  发表于 2022-6-14 07:39:07
这与ST1和ST2分布形成对比,ST1和ST2分布往往无法收敛(有关每个分布未能提供分位数答案的次数,请参见附录表11)。每个时间步的2个弹球丢失分数t,弹球丢失值的平均值导致单个弹球丢失分数L(s,i)t(qa,yt),计算为:L(s,i)t(qa,yt)=JaXa=1L(s,i)t(qa,yt)(12),在所有评估的时间步中,这导致向量L(s,i)(q,y)∈ RJb,其中Jb=383- n(ndentes由于收敛问题而导致L(s,i)t(qa,yt)不可用时的发生次数)。3弹球损失性能测量使用弹球损失函数计算描述拟合优度测量值的单个值的最后一步是在时间步骤t=1151,…,找到弹球损失分数超过完整验证预测范围的平均值。。。,1534(即383天):L(s,i)=JbXt=1′L(s,i)t(qa,yt)(13)与弹球损失性能度量最低的模型对应的分布D(i),L(s,i)∈ R、 被选为排列数s的最佳拟合分布。算法2使用弹球损失函数选择模型1:对于每个排列数s=1:276 do2:提取验证数据设计矩阵X(s)验证∈ R383×9i。e、 时间步长t=1151。。。,15343:对于每个分布D(i),i=1:6 do4:导致θ(s,i)=[u(s,i),σ(s,i),ν(s,i),τ(s,i)]的D(i)的预测矩大小为R5的示教:对于时间步长t=1。。。,383 do6:获得分位数q(s,i)t的向量∈ RJausingθ(s,i)t7:对于每个分位数qa,tdo8:使用公式119计算弹球损失值L(s,i)t(qa,yt):使用公式1210计算弹球损失分数L(s,i)t(qa,yt):使用公式1210计算弹球损失性能度量L(s,i)。

19
能者818 在职认证  发表于 2022-6-14 07:39:10
1311:找到n=argminiL(s),并选择相应的分布D(n)作为最佳分布。对每个排列的弹球损失性能指标进行分析,结果显示在24×24上对角线矩阵中,包含在行和列标签所示的小时之间为每个日内排列选择的最佳分布数(见图1)。图中显示,大多数价差最适合ST5分布(数字6-紫色)。这与使用RMSE度量从基于因子的分布函数中获得的结果一致(参见附录图34),并与y给出的简单最佳分布函数一致~ 1功能(参见附录图29),这两个功能都支持ST5分布。表4详细说明了从276个可能的价差中选择最佳分布的次数。虽然几乎50%的利差都选择了ST5,但其余5个分布的利差数据比例几乎相同。此外,我们还计算了最佳分布损益绩效衡量值与下一个最佳分布损益绩效衡量值的差异百分比| L(s)-L(s)| L(s)*100%,对于每个排列数s。当选择ST5作为最佳分布时,图1的平均差异:基于弹球损失函数的最佳分布(验证数据)。JSU SEP1 SEP2 ST1 ST2 ST522 26 45 33 27 123表4:基于因子的分布拟合(验证数据)-基于PL.performance度量的最佳分布为4.84%,相比之下,当其他分布被选为最佳时,平均差异为1.44%(其中约1/3的情况下含有ST5为次佳)。

20
大多数88 在职认证  发表于 2022-6-14 07:39:13
这使得ST5有可能被用作所有利差的一般最佳利差分布。接下来,我们根据为每个排列数建立的最佳分布重新估计模型,使用滚动窗口预测技术分析性能,并使用基于Diebold-Mariano测试的正式显著性测试框架中使用的弹球损失函数评估结果。T0T0F1F2T0F3T1TT2T3图2:滚动窗口程序。4滚动窗口预测分析我们使用滚动窗口技术,根据为每个排列数选择的最佳分布(见图1)进行仔细的预测分析,并将结果与使用Diebold-Mariano测试的正常双参数基准获得的模型性能进行比较。估计视界(rollingwindow大小,T)由80%的数据(1534次观测)组成,每次上移1个时间步长。对于每个排列数s=1。。。,276我们使用选定的分布D(s)在滚动窗口时间框架T上重新指定和重新估计模型,并创建日前预测。滚动窗口预测分析在不可见的数据点t=1535。。。,1917年,如图2所示,步骤如算法3所示。对于每个排列s=1。。。,276从时间步T(绿色括号)开始,在T=1534个观测值的固定长度范围内指定并估计模型。每个分布参数的方程规格是通过迭代改进获得的,在每次迭代中,最不重要的变量会被逐个删除(截距除外),直到每个方程中的所有变量都达到5%的显著水平。然后,使用估计模型进行一步预测f(绿色),并获得完整的预测密度。将窗口移动1个时间步至t(蓝色),然后重复该过程。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-11 14:00