|
它有助于说明回归树如何使用决策树来快速拆分变量,以便捕获数据中的非线性模式。图2:随机森林回归的变量重要性排序图2描述了影响其预测的最重要变量的相对重要性。它与OLS系数没有直接的可比性,但它确实提供了对哪些变量最能影响预测的洞察,并且以这种方式比一些机器学习方法更具解释性。与训练数据相比,随机森林模型对训练数据的准确度得分为.96,与OLS的R平方相当。训练数据的均方误差为=0.0,theRMSE为0.02.5交叉验证结果在本节中,我们将研究当估计(训练)模型应用于一组未用于训练模型的观测值时,两个模型的表现。这种做法通常用于评估是否发生了过度匹配,即模型过度调整到训练数据集,并且在推广到其他数据时表现不佳。为此,我们使用了1/3的原始数据,这些数据被分割成一个测试数据集。它不与训练数据共享观察结果。我们检查的第一个结果是,当我们根据这些新数据预测模型时,比较残差的分布,并将预测值与每平方英尺租金的观察值进行比较。这些结果如图3所示。
|