|
在整个数据集上,这些价格近似值与实际价格之间的绝对差异平均为2.07欧元/兆瓦时(对应于4.28%的中位数绝对百分比偏差)。虽然我们假设普通线性回归是众所周知的,但我们对我们考虑的机器学习算法进行了简要描述。在每种情况下,我们的目标都是近似函数f:RN→ 将上述特征映射到相应的电价。为此,我们假设给定一组训练数据{(x,y),…,(xn,yn)},其中yi=f(xi)+εi,xi∈ RN,i=1,n、 (11)和(ε,…,εn)是具有零期望的独立、齐次随机变量的实现向量。随机森林随机森林基于一种更简单的机器学习方法,称为决策树(Hastie、Tibshirani和Friedman,2001,第9.2章))。虽然决策树很容易理解,但由于对训练数据的高度依赖性,它们的性能往往较差。Random forestsaim通过对多个决策树的预测进行平均来克服这一缺点,这些决策树是从相同的数据出发,以随机的方式进行训练的(Breiman(2001))。作为培训过程的一部分,随机森林提供了一种方便的方法来评估每个特征对输出的影响。因此,他们可以根据其对电价预测的相关性对功能进行排序。虽然它本身很有趣,但我们也将此排名用于特征选择,即仅在NF上训练前馈神经网络∈ N最重要的特征(如NF=10)。前馈神经网络前馈神经网络可以看作是对普通线性回归的一种深远的非线性扩展。
|