楼主: 大多数88
958 21

[量化金融] EPEX订单上的机器学习:见解和预测 [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-6-24 04:41:20
在整个数据集上,这些价格近似值与实际价格之间的绝对差异平均为2.07欧元/兆瓦时(对应于4.28%的中位数绝对百分比偏差)。虽然我们假设普通线性回归是众所周知的,但我们对我们考虑的机器学习算法进行了简要描述。在每种情况下,我们的目标都是近似函数f:RN→ 将上述特征映射到相应的电价。为此,我们假设给定一组训练数据{(x,y),…,(xn,yn)},其中yi=f(xi)+εi,xi∈ RN,i=1,n、 (11)和(ε,…,εn)是具有零期望的独立、齐次随机变量的实现向量。随机森林随机森林基于一种更简单的机器学习方法,称为决策树(Hastie、Tibshirani和Friedman,2001,第9.2章))。虽然决策树很容易理解,但由于对训练数据的高度依赖性,它们的性能往往较差。Random forestsaim通过对多个决策树的预测进行平均来克服这一缺点,这些决策树是从相同的数据出发,以随机的方式进行训练的(Breiman(2001))。作为培训过程的一部分,随机森林提供了一种方便的方法来评估每个特征对输出的影响。因此,他们可以根据其对电价预测的相关性对功能进行排序。虽然它本身很有趣,但我们也将此排名用于特征选择,即仅在NF上训练前馈神经网络∈ N最重要的特征(如NF=10)。前馈神经网络前馈神经网络可以看作是对普通线性回归的一种深远的非线性扩展。

12
nandehutu2022 在职认证  发表于 2022-6-24 04:41:23
它们由若干层组成,通过非线性化函数和加权和的组合输入,以生成输出。这种层的最小单位(一个向量分量)称为神经元。神经网络理论的一个中心结果表明,使用一个非常数、有界和连续的激活函数,只有一个隐藏层的神经网络原则上可以在有足够多的神经元和选择适当权重的情况下很好地逼近任何连续函数(Hornik(1991))。在实践中,发现更多的层可以提高许多应用程序的性能(深度学习)。除了隐藏层的数量和每层神经元的数量之外,还有其他所谓的高参数,预测性能在很大程度上取决于这些参数。例如,必须选择用于训练网络的优化算法。通常,会使用随机梯度下降(SGD)的一些变体,如Termsprop(Thieleman和Hinton(2012))或Adam(Kingma和Ba(2015))。此外,SGD型算法可以处理成批的训练数据。可以改变批次大小以提高性能。我们考虑的其他超参数包括历元数,即将训练数据输入优化算法的次数,激活函数(tangens双曲、直线单位、恒等式)和是否采用辍学来避免过度匹配(Srivastava、Hinton、Krizhevsky、Sutskever和Salakhutdinov(2014))以及批次归一化来避免内部协变量转移(Ioffe和Szegedy(2015))。通过交叉验证进行超参数优化我们使用五次折叠交叉验证为神经网络和随机森林选择超参数值。首先,我们定义了要评估的超参数组合网格。

13
可人4 在职认证  发表于 2022-6-24 04:41:26
然后,对于网格中的每个超参数组合,我们将训练数据集拆分为五个部分或大小相等的折叠,在其中四个折叠上使用这些值训练模型,并在剩余的折叠上评估其性能。在重复这五次之后,每次都有不同的验证次数,我们平均表现。最后,对整个网格进行评估后,我们选择平均性能最好的超参数组合。综上所述,我们使用参考时点r(t)预测时点t的现货价格的特征是o总需求Dr(t)(-500)和基准日同一小时的价格曲线特征,即VXr(t)(CXk),k=1,MX,o时间点t和r(t)的太阳能和风能馈入预测以及总需求预测,o日历的特点是时间点t和r(t)的年、夏令时、日、月和小时类型。我们考虑了100个不同的参数组合,用于树数为10、100、1000、5000、10000或50000的随机森林。对于神经网络,我们测试了1000多个参数组合,约20个不同的网络大小,从一个包含5个神经元的隐藏层到100个每个包含25个神经元的隐藏层(见表1)。4结果为了评估模型性能,我们主要使用均方根误差rmse:=nnXi=1(^yi- yi)!1/2,其中^yi是预测值,yi是真实目标值,n是进行预测的观测数。此外,我们考虑平均绝对误差:=nnXi=1 |^yi- yi |作为预测平均效果的更具解释性的衡量标准。RMSE是机器学习算法在训练过程中力求最小化的误差度量。因此,我们选择了在RMSE的5倍交叉验证中表现最好的模型架构。

14
能者818 在职认证  发表于 2022-6-24 04:41:29
在电力预测文献中,有时使用平均绝对百分比误差(MAPE)。这不适合德国市场,因为MCPI通常为零或接近零。因此,我们报告了中位绝对百分比errorMdAPE:=med|^yi- yi | | yi |,i=1,n用于比较。除了第3节中描述的方法外,我们还考虑了两个基准。第一个被称为天真基准(Nogales et al.(2002))。如果d是星期一以外的工作日,则其对d日h小时的预测为前一天h小时的价格,否则为前一周同类型天h小时的价格。第二个基准是基于不同的市场,即能源交易所(EXAA),在EXAA中,电价在发电前两小时确定。因此,时间点t的EXAA价格可以直接用作同一时间点EPEX价格的预测值。事实上,Ziel、Steinert和Husmann(2015)表明,这一基准具有很强的竞争力。然而,请注意,将其余预测方法与EXAA基准进行比较并不合适,因为它们基于不同的信息(另请参见Ziel和Steinert(2016))。尽管如此,EXAA基准可以为其他模型的表现以及预期的改进提供一些方向。性能最好的随机林由1000棵决策树组成,其中在基础决策树的训练中,每一步都会使用一个大小为23(相当于所有可用特征的25%)的随机chosensubset,其中树节点仅在包含至少1%的所有训练数据时才进一步拆分。

15
能者818 在职认证  发表于 2022-6-24 04:41:32
我们还使用随机林来支持以下神经网络方法的特征选择。对于考虑中的神经网络,我们使用不同的特征向量化:o所有可用特征,o参考日期的价格曲线特征以外的所有特征,o根据最佳表现的randomforest,10个最具影响力的特征,o根据最佳表现的randomforest,20个最具影响力的特征。对于每种情况,我们使用由如上所述的超参数优化确定的不同网络架构。表1中报告了这些特征,其中每列对应一个特征选择,每行对应一个超参数。网络架构的符号[5,5,5]表示使用由每层5个节点组成的3层网络。对于针对所选功能进行培训的网络,我们找到了一个更深层次的架构来执行:[25]*25表示每层有25个节点的25层网络。类似地,在辍学行中,[0,0.25,0]表示在第二层之后辍学的概率为25%,而[0.1]*25表示在25层之后辍学的概率为10%。值得注意的是,使用所有功能时,性能最好的网络相当小。因此,作为额外的合理性检查,我们还考虑了Keles et al.(2016)(网络规模[48,48],sigmoid激活,无脱落)和Lago et al.(2018)(网络规模[239162],relu激活,无脱落)提出的网络架构。

16
何人来此 在职认证  发表于 2022-6-24 04:41:36
注意,他们的模型没有考虑价格曲线特征,即订单数据。表1:训练具有不同特征的前馈神经网络时使用的超参数(所有,无曲线特征,仅具有10或20个最具影响力的特征,由表现最好的随机森林选择)。超参数所有特性无曲线特征选择的特性(NF=10)选择的特性(NF=20)网络架构(Networkarchitecture)[5,5,5][5,5][25]*25[25]*25优化程序rmsprop Adam Adam AdamnNumber of EPOCHS100 100 100 100批次大小128 64 128激活功能TANH relu relu reluDropout[0,0.25,0][0,0.25,0][0.1]*25批次规格化否是所选模型的结果配置如表2所示。我们报告的误差在训练集(样本内误差)上进行测量,以评估模型对给定数据的描述程度,在测试集(样本外误差)上进行测量,以评估模型在以前未看到的数据(整个数据集的20%)上的性能。备选方案:除了前馈神经网络之外,我们还分析了递归神经网络。预计电力现货价格将取决于前几天的特征和价格,将其建模为多变量时间序列似乎是合理的。虽然像ARIMA或GARCH模型这样的经典方法是可能的,但这也是递归神经网络的典型应用,因为它们明确地结合了输入的序列结构。在这种情况下,目标是根据最新d期的可用信息预测d期现货价格的24维向量- 1、每个日期e≤ d- 1该信息包括日期e的曲线特征、日历特征、预计可更新进料和日期e+1的总需求。

17
何人来此 在职认证  发表于 2022-6-24 04:41:39
我们使用长-短期记忆(LSTM)架构实现了这种方法,该架构允许对递归神经网络进行有效训练(Hochreiter和Schmidhuber(1997)),但结果不如其他方法令人信服。这可能是由于多元时间序列欠考虑的高维性。因此,我们将重点放在随机森林和前馈神经网络方法上,其中时间依赖结构通过参考日更明确地纳入特征中。表2:各种价格预测技术的样本内误差和样本外误差比较,单位为欧元/兆瓦时百分比。预测技术样本内误差样本外误差RMSE-MAE-MdAPE-RMSE-MAE-MdAPENaive模型13.55 7.87 15.31%12.68 7.71 11.61%普通线性回归6.85 4.25 10.93%9.60 7.52 16.95%随机森林6.77 4.17 9.73%11.92 9.32 19.9%前馈神经网络与Keles et al.(2016)6.72 4.51 11.49%14.87 12.81 30.63%前馈神经网络与Lago et al.(2016)的架构al.(2018)2.27 1.65 4.45%21.05 8.94 15.22%前馈神经网络5.45 3.57 8.89%9.59 7.08 14.18%无曲线特征的前馈神经网络6.63 4.41 11.22%10.11 7.85 16.12%带特征选择的前馈神经网络(NF=10)7.69 5.06 11.68%9.41 7.34 15.57%带特征选择的前馈神经网络(NF=20)7.71 4.95 11.27%13.65 10.18 21.48%EXAA 6.47 3.53 7.56%5.583.92 7.22%5结论我们的结果表明,神经网络确实可以提供具有竞争力的基于订单的价格预测结果。然而,它们的表现并不明显优于普通线性回归等简单方法。

18
nandehutu2022 在职认证  发表于 2022-6-24 04:41:42
传统的基于订单簿的预测技术需要大量的统计分析,而网络架构优化也需要大量的资源。我们还发现,减少特征的数量通常可以改善结果。关于RMSE,我们发现,只有随机森林选择的10个特征的前馈神经网络表现最好。考虑到theMAE(与金融交易收入直接相关的指标),无特征选择的前馈神经网络处于领先地位。然而,Naive模型也显示了良好的结果,支持了能源经济学中这一传统且经常应用的启发式方法。文献中的神经网络结构在样本结果上具有竞争力,但在样本外分析中,其性能显著下降。这表明过度匹配。回答了提出的研究问题。我们已经展示了如何使用基于卷的分区、价格曲线的转换和基于随机林的功能选择合并订单簿功能。我们还认为,机器学习不能显著减少模型建立所需的工作效率,但会产生有竞争力的结果。这些模型确实有很大的改进潜力。例如,与EEX transparency提供的数据相比,市场上有更准确的风能和太阳能馈入预测(遗憾的是,它们不是免费的)。

19
可人4 在职认证  发表于 2022-6-24 04:41:45
我们认为,每日重新校准模型的潜力最大,包括更新的功能选择,使模型能够对市场的根本变化(煤炭和天然气价格、电厂停运等)作出反应。此外,我们还分析了机器学习onEPEX订单簿的不同应用,这些应用没有详细概述:我们使用神经网络从订单簿重建可再生进料,并使用网络生成价格远期曲线。参考文献Aggarwal,S.K.,Saini,L.M.,和Kumar,A.(2009)。放松管制市场中的电价预测:回顾与评估。《国际电力与能源系统杂志》,31(1),13–22。内政部:10.1016/j.ijepes。2008.09.003Amjady,N.(2006,06)。一种新的模糊神经网络用于电力市场日前电价预测。IEEE电力系统交易,21,887–896。内政部:10.1109/TPWRS。2006.873409Breiman,L.(2001)。随机森林。机器学习,45,5–32。内政部:10.1023/A:1010933404324Burger,M.,Graeber,B.,和Schindlmayr,G.(2014)。管理能源风险:电力和其他能源市场的综合观点。威利金融系列。内政部:10.1002/9781118618509 Chen,X.,Dong,Z.,Meng,K.,Xu,Y.,Wong,K.,和Ngan,H.(2012,11)。用极限学习机和自举法进行电价预测。IEEE电力系统交易,27,2055–2062。内政部:10.1109/TPWRS。2012.2190627Cludius,J.、Hermann,H.、Matthes,F.C.、Graichen,V.(2014)。2008-2016年德国风能和光伏发电的多阶效应:估计和分布影响。能源经济学,44302–313。内政部:10.1016/j.eneco。2014.04.020康涅霍,A.J.,Plazas,M.A.,Espinola,R.,和Molina,A.B.(2005年5月)。利用小波变换和ARIMAmodels进行日前电价预测。IEEE电力系统交易,20(2),1035–1042。

20
nandehutu2022 在职认证  发表于 2022-6-24 04:41:49
内政部:10.1109/TPWRS。2005.846054Coulon,M.,Jacobsson,C.,和Str¨ojby,J.(2014,01)。功率每小时分辨率正向曲线:统计建模符合市场基本面。InM。Prokopczuk(编辑),《能源定价模型》。最新进展、方法和工具(第147-193页)。内政部:10.1007/978-1-137-37027-3\\6Hastie,T.,Tibshirani,R.,&Friedman,J.(2001)。统计学习的要素。斯普林格。内政部:10.1007/978-0-387-84858-7Hochreiter,S.,&Schmidhuber,J.(1997)。长期短期记忆。神经计算,9(8),1735-1780年。内政部:10.1162\\%2Fneco。1997.9.8.1735霍尼克,K.(1991)。多层前馈网络的逼近能力。神经网络,4(2),251–257。内政部:10.1016/0893-6080(91)90009 Tioffe,S.&Szegedy,C.(2015)。批量规范化:通过减少内部协变量转移来加速深度网络训练。更正,abs/1502.03167。Keles,D.、Scelle,J.、Paraschiv,F.、Fichtner,W.(2016,01)。应用人工神经网络的日前电价扩展预测方法。应用能量,162218–230。内政部:10.1016/j.apenergy。2015年9月8日Kingma,D.P.&Ba,J.(2015)。Adam:一种随机优化方法。Y.Bengio和Y.LeCun(编辑),第三届学习代表国际会议,ICLR 2015,圣地亚哥,加利福尼亚州,美国,2015年5月7-9日,conferencetrack会议记录。检索自http://arxiv.org/abs/1412.6980Lago,J.、Ridder,F.D.、Schutter,B.D.(2018)。预测现场电价:深入学习方法和传统算法的实证比较。应用能量,221386–405。内政部:10.1016/j.apenergy。2018.02.069 Marcjasz,G.、Uniejewski,B.、Weron,R.(2018)。NARX神经网络在日前电价预测中长期季节性分量的重要性。《国际预测杂志》。内政部:10.1016/j.ijforecast。2017.11.009Mosbah,H.&El Hawary,M.E.(2016)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-21 14:46