|
每个表都显示了调整前后的性能指标以及确定的最佳参数。此外,与默认参数相比,这些表显示了每个性能指标的改进程度。结果第4阶段在第4阶段进行了以下实验: 更改型号中的种子编号(从最初的12345更改为98642)(如果可能)。 将测试数据集和评分数据集之间的分割百分比从0.5(50%测试,50%评分)更改为0.7(70%测试,30%评分)。 改变数据集特征的数量:从初始成本、服务水平、RIW和年龄组到成本、服务水平、RIW。对于每个选项,运行Azure内置回归模型(5种类型),并记录和比较性能指标。附录中提供了包含指标数据的表格,显示了选项之间的绝对和相对差异: 更改种子编号–附录3。 更改测试数据集和评分数据集之间的分割百分比-附录4。 更改数据集功能的数量–附录5。结果第5阶段综合了综合工具的结果。图6显示了Azure内置回归模型和基于R的回归模型的组合工作流。表6显示了Azure内置回归模型和基于R回归模型的组合性能指标。优化版本的提升决策树回归和决策林回归的性能显示在列表的上方。未调整基于R的模块的参数。R包中的大多数模型都使用默认参数。此外,还使用glm和lm函数构建了多元线性回归模块。结果未显示,因为它们与Azure线性回归内置模型的结果相同。
|