|
总的来说,这些替代设计选择的相对性在先验上并不明确,因此我们将对它们进行经验探索,作为下一节讨论的模拟实验的一部分。3.模拟实验3。1基本模拟设置我们的第一次演示利用了自行车共享数据(Fan aee-T和Gama,2014),其中包含17379个小时自行车租赁活动实例。IT是一个常用的数据集,用于基准测试和评估机器学习模型(例如Giot和Cherrier,2014)。此外,该数据集有助于模拟机器学习如何对流动性对重要经济或社会结果的影响问题进行实证研究的例子。我们对数据集进行随机划分,1000个观测值作为Dtrain,200个观测值作为Dtest,剩下的16179个观测值作为Dunlabel。这代表了一个现实的场景,Dunlabelis比Dlabel大得多。使用Dtrain,我们建立了一个由100棵树组成的随机森林模型,根据12个特征(包括租赁时间、天气和季节信息)预测每小时自行车租赁总量的对数转换计数(表示为lnCnt,对数转换以减少偏斜度)。重要的是,随机森林生成聚合(集合)预测,以及来自其每棵树的预测。我们将\\lnCnt表示为聚合预测,并\\lnCntias表示来自单个树i的预测∈ {1, . . . , 100}.接下来,我们用lnCnt作为独立的协变量来模拟一个计量经济学模型。模型规格为y=1+0.5lnCnt+2Z+Z+ε,其中Z~ 制服[-10,10],Z~ N(01100)和ε~ N(0,4)。在BikeSharing数据集中,σlnCnt=1.5,小于回归误差项的标准偏差。
|