楼主: 大多数88
2992 79

[经济学] 利用数据挖掘变量实现可靠的因果推断:一个随机模型 [推广有奖]

41
nandehutu2022 在职认证  发表于 2022-4-26 14:45:08
换言之,使用有效的标记数据,ForestIV估计会收敛,并比u-nbiased估计更精确。尽管存在一些局部波动,但单个模拟运行的点估计值支持相同的观察结果。这种敏感性分析为从ran DOMREST生成的仪器的质量提供了额外的支持,并随后由我们提出的程序选择。实际上,结合机器学习的好处是0。20.30.40.50.60.70.80 5000 10000 15000未标记数据的大小lnCntBiasedForestIVUnbiased0上的系数。20.30.40.50.60 5000 10000 15000大小的未标记数据LNCNTBiaseForestIV上的系数图4:不同大小的未标记数据的置信区间和点估计。左面板显示了不同大小的未标记数据对lnCnt估计的95%置信区间。右面板显示了基于单次模拟运行的不同大小的未标记数据在lnCnt上的点估计。lnCnt的真实系数为0.5。当未标记的数据比标记的数据大得多时,计量经济学建模可能最为显著,尤其是当获取大量标记数据的成本高得令人望而却步时。在这种情况下,ForestIV可以提供更大的实质性,因为它的估计随着未标记数据量的增加而收敛,这最终带来了相对于使用(相对较小的)标记数据集获得的无偏估计的精度提高。E.3.2计量经济数据中的噪声我们通过将σε从2增加到5(或等效地,将误差项方差增加6.25倍)来重复模拟。这代表了经济计量估计数据包含大量噪声的情况。

42
能者818 在职认证  发表于 2022-4-26 14:45:15
结果见表1。3.2.真有偏无偏前stIVIntercept 1.0 0.692(0.155)1.044(0.512)0.870(0.270)[0.157][0.511][0.630]lnCnt 0.50.568(0.033)0.495(0.089)0.531(0.055)[0.143 0.530 0.576]Z2。0.2000(0.007)1.998(0.027)2.000(0.008)[0.464][0.524][0.982]Z1。01.000(0.004)0.998(0.016)1.000(0.004)[0.488][0.486][0.998]平均均方误差0.408 0.143表2:ForestIV关于∑ε=5的自行车共享数据的结果。括号中的标准错误。p-值将估计值与方括号内的真实值进行比较。Ave MSE包含与100次模拟运行中的每组估计值相关的Ave MSE。我们观察到,与σε=2的情况相比,与有偏、无偏和ForestIV估计相关的平均标准误差都变得更大(约为2.5倍),这是数据中噪声增加的直接结果。然而,尽管数据中存在更大的噪声,与无偏估计相比,ForestIV在估计精度方面仍然取得了显著的进步,因为ForestIV估计产生的标准误差要小得多。E.3.3随机森林的预测性能迄今为止,我们将ran dom森林模型视为固定模型。然而,建立预测性机器学习模型的标准过程通常涉及调整各种参数,以在保留标记的数据上实现最佳预测性能。因此,在下一组敏感性分析中,我们研究了随机森林的预测性能(使用机器学习中常见的性能指标均方根误差RMSE测量)与ForestIV校正性能之间的关系。

43
大多数88 在职认证  发表于 2022-4-26 14:45:21
鉴于一个随机森林的许多参数可以微调,我们选择关注树木总数(即M),因为该参数与仪器中的候选数量直接相关。我们用5个不同的M值重复模拟:25、50、100、150和200。在这些模拟中,其他参数仍如主模拟中所述。我们在表中报告了每种M选择的ForestIV估计结果。3.3. 我们还报告了在表的最后一行将βLabel与ForestIV估计值进行比较的平均Hotelling T统计量。在雕像里。3.3,我们在lnCnt上绘制了三种特定大小的随机森林的ForestIV估计分布,即M∈ {25, 100, 200}.1.640 0 0.656 0 0 0 0.6430 0.646 0 0.646 0 0 0.646 0 0.646 0 0.646 0.6411中国内地截获1.0 0 0 0.0 0 0 0.0 0 0 0.884(0.132)0.0 0 0 0.0 0 0 0.132)0.0 0 0 0 0 0 0 0.0 0 0 0 0 0 0.132)0 0 0 0 0 0(0 0.132)0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.132)0(0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.132)0(0 0 0 0 0 0 0 0 0 0 0 0 0 0 0(0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.[Z2。0.2.000(0.003)2.000(0.003)2.000(0.003)2.000(0.003)2.000(0.003)[0.892][0.920][0.977][0.911][0.777]Z1。1.000(0.002)1.000(0.002)1.000(0.002)1.000(0.002)1.000(0.002)1.000(0.002)[0.916][0.924][0.989][0.947][0.897]Ave MSE 0.016 0.020 0.017 0.017 Ave。Hotelling Tstats 3.0817 3.0501 2.7094 2.7816 2.9357表3:Fo restIV对不同选择的M。括号中的标准错误。p值将ImageMates与方括号中的真值进行比较。Ave MSE包含100次模拟运行中与每组估计值相关的平均经验MSE。将每M的平均点估计值作为校正性能的指标,我们发现,树太少(例如,M=25或M=50)10个D会导致更高的RMSE和较差的ForestIV结果。

44
何人来此 在职认证  发表于 2022-4-26 14:45:28
同时,随着树木数量的增加,我们观察到RMSE的边际改善,但这并不总是导致更好的校正性能。具体而言,当M=150和M=200时,我们观察到RMSE分数与M=100时相比略有改善,但ForestIV的校正性能下降。这也得到了E的可视化支持。3.3中,我们观察到M=100 t时的校正性能优于M=25或M=200时的校正性能。重要的是,我们计算了平均Hotelling t统计值,将βLabel与ForestIV估计值进行比较,结果为0。45 0.50 0.55 0.60 0.650 5 10 15 lnCntDensityM=25M=100M=200的lnCnt系数图5:对于Mit不同选择的lnCnt估算,以符合ForestIV的校正性能。Tstatistic越小,校正性能越好。这组模拟表明,ForestIV无法替代调整与随机森林预测模型相关的超参数的功能。也就是说,拥有一个性能更好的ran dom forest通常会提高ForestIV的性能。同时,在这个特别的演示中,我们观察到使用过多的树可能会潜在地损害ForestIV的校正性能,这可能是因为在大量的直截了当的仪器中,仪器的选择可能是有挑战性的。在实践中,研究人员可以依靠HotellingTstatistic作为信号,选择使Tstatistic最小化的树的数量。E.4森林植被替代设计的模拟结果。4.1样本分割构建候选工具变量的另一种方法是样本分割,这是计量经济学中利用多个独立样本进行估计和推断的一般策略(例如,Angrist和Krueger,1995年;Chernozhukov等人,2016年;Athey和Imbens,2017年)。

45
可人4 在职认证  发表于 2022-4-26 14:45:34
考虑将训练数据分成两个独立的子集,并在每个子集上建立一个随机森林模型。每一片森林在整体上是一致的(随着训练数据的大小趋于一致),其预测误差被描述为一个随机且独立的噪声项(Scornet等人,2015)。因此,一个随机森林的预测原则上可以作为另一个预测的工具。这种样本分割方法的潜在吸引力在于,它(在一定程度上)保持了随机森林优于单个决策树的预测性能,因此可以提前减少测量误差问题的范围。通过对自行车共享数据的模拟实验,我们探索了这种替代方法的校正性能。基本设置与主要手稿第3.1节相同,只是我们将训练数据随机分成两个大小相同的样本(每个样本有500个实例),并训练一个随机森林模型,每个样本上有100棵树。我们把这两片森林称为森林1和森林2。然后,我们使用Forest#1对未标记数据的预测作为内生协变量,使用Forest#2对未标记数据的预测作为仪器变量。

46
mingdashike22 在职认证  发表于 2022-4-26 14:45:44
因为在这种情况下只有一个仪器,所以不需要仪器选择程序。我们在表中报告了这种样本分割方法在100次模拟运行中的平均估计,以及有偏、无偏和ForestIV平均估计。4.1.真实偏置无偏前stIV样品分离截距1.0 0.702(0.063)1.018(0.204)0.957(0.134)0.553(0.115)[0.004][0.511][0.745][0.000]lnCnt 0.50.566(0.013)0.498(0.040)0.512(0.027)0.599(0.023)[0.002][0.530 0.652][0.000]Z2。0.2.000(0.003)1.999(0.011)2.000(0.003)2.000(0.003)[0.459][0.524][0.977][0.961]Z1。01.000(0.002)0.999(0.006)1.000(0.002)1.000(0.001)[0.480][0.486][0.989][0.977]平均均方误差0.150 0.017 0.283表4:样本分割:自行车共享数据的结果。括号中的标准错误。p值将ImageMates与方括号中的真值进行比较。Ave MSE包含100次模拟运行中与每组估计值相关的平均经验MSE。我们发现,样本分割法产生的估计值实际上比偏差估计值(直接取自机器学习模型,无需任何修正)更具偏差,这是仪器无效的有力迹象(Murray,2006)。事实上,在检查了两个随机森林对测试数据的预测后,我们发现,虽然森林#1的预测与森林#2的预测有很强的相关性(平均相关性为0.96,表明仪器相关性很强),Forest#1的预测误差与Forest#2的预测没有弱相关性(平均相关性为0.30,表明系统性违反了仪器排除要求)。因此,尽管样本分割在理论上可能是构建仪器的可行方法,但在这种情况下似乎并不有效。

47
能者818 在职认证  发表于 2022-4-26 14:45:51
我们进一步对一些额外大小的训练数据重复模拟,并在表E.4.1中总结结果。我们再次观察到,ForestIV始终优于samplesplitting。2.125 500 500 500 500 500 500 500 500 500 500 1000 1000 2000 | |雨| |雨| |雨124:|雨124::|雨124:|雨124:|雨124::;2.125250 250 500 500 500 500 500 500 500 500 500 500 500 500 500 500 500 500 500 500 500 500 500,截截取1.0.0.0.0 0.0前预测预测0.0.0.0.0 0 0 0 0 0 0 0 0 0前的前的0.951(0.951(0.377)0(0.7)0.7)0.0.0.0.0.0 0 0 0 0 0 0 0 0 0 0 0.0.0 0 0 0 0 0 0 0 0.0 0 0 0 0 0 0 0 0 0 0 0(0(0.377)0 0 0(0.023)0.581(0.018)Z2。0前stIV 1.999(0.003)2.000(0.003)2.000(0.003)2.000(0.002)样品分离2.000(0.003)1.999(0.002)2.000(0.003)2.000(0.003)Z1。0前stIV 1.000(0.002)1.000(0.002)1.000(0.002)1.000(0.001)样本分割1.000(0.002)1.000(0.002)1.000(0.002)1.000(0.002)1.000(0.002)平均MSE前stIV 0.040.010 0.017 0.021样本分割0.664 0.391 0.283 0.156表5:不同大小训练数据的样本分割。括号中的标准错误|Dtrain |表示训练数据的大小,|Dtrain |/2表示每个分割样本的大小。AveMSE包含与每组e估计值相关的平均经验al MSE,共100次模拟运行。此外,我们将模拟扩展到13种不同大小的训练数据:200、250、300、350、400、450、500750、1000、1250、1500、1750和2000。对于每种大小的训练数据,我们应用b oth ForestIV和样本分割,然后使用100次模拟运行中的真实系数值(而非无偏估计)计算与每个估计器相关的平均平方偏差、方差和MSE。在雕像里。4.1,我们绘制了两个估计器在不同样本量下的偏差平方、方差和均方误差,这两个估计器分别针对lnCnt的系数(即机器学习产生的变量)和回归模型中的所有系数。

48
大多数88 在职认证  发表于 2022-4-26 14:45:57
我们还绘制了两个估计器的平方偏差、方差和MS E的比率。根据经验,我们发现ForestIV的偏差、方差和均方误差均小于样本分割,且两者之间的比率始终小于1。此外,我们观察到,随着训练数据的规模越来越大,ForestIV的偏差率和MSE率在样本分割上呈下降趋势。这一经验证据表明,ForestIV可能比样本分割更有效。在训练数据大小固定的情况下,前者比后者获得更小的偏差和更小的方差(即更好的估计),而ForestIV的优势似乎随着训练数据大小的增加而变得更大。E.4.2使用树木子集作为内生协变量和工具当我们建议使用随机森林中的一棵树作为内生协变量,并在这种限制下为其选择工具时,当然可以使用森林中的树木子集来构建内生协变量。这种方法的潜在好处是,在多棵树上进行聚合可以产生更准确的预测,这表明提前减少了测量误差问题。然而,这种方法带来了计算上的挑战,因为在由M棵树组成的森林中,有O(2M)个可能的树子集,通常不可能穷尽地枚举和处理。尽管如此,我们还是对这一策略进行了初步探索。我们没有列举所有可能的子集,而是随机抽样所有树的q%,并使用它们的平均预测作为内生协变量。然后,从这里开始(1)- q) 对于%的树,我们选择适当的工具(每个工具仍然是单个树的预测)来估计回归。

49
何人来此 在职认证  发表于 2022-4-26 14:46:03
树抽样和工具选择过程重复100次,产生100个内生和工具变量元组。请注意,我们只生成了100个这样的元组,因为即使对于固定的q%(例如≈ 3×10种方法从100棵树的随机森林中取样30吨稀土)。与ForestIV一样,我们通过选择使经验MSE最小化的元组得出结论。我们在自行车共享数据集下使用相同的基本模拟配置,并在三个级别上改变q%,分别代表低、中、高级别的子集聚合,分别为30%、50%和70%。对于每个选择的q%,我们在表中报告了100次模拟运行的平均估计值(以及有偏、无偏和ForestIV估计值)。4.2.我们发现,与我们提出的ForestIV方法相比,随机选择一个子集树来构建内生协变量在偏差校正方面的效果有限。在三种不同的抽样比率中,我们承认,如果训练数据的规模显著增大,样本分割方法的性能可能会进一步提高。

50
何人来此 在职认证  发表于 2022-4-26 14:46:09
然而,我们必须再次重申,在有更多数据的情况下,没有必要首先通过机器学习技术“挖掘”协变量。0.0000.0250.0500.0750.100500 1000 1500 2000训练数据的大小平方偏差激励Forestiv样本分割lnCnt2e的平方偏差-043e-044e-04500 1000 1500 2000训练数据方差的大小估计器ForestIV样本分割lnCnt0的方差。0000.0250.0500.0750.1000.125500 1000 1500 2000训练数据的大小MSEIV样本分割lnCnt012500 1000 1500 2000训练数据的大小平方偏差激励ForESIV样本分割所有变量的平方偏差之和0。0040.0060.0080.010500 1000 1500 2000训练数据的大小方差估计器ForestIV样本分割所有变量的方差之和12500 1000 1500 2000训练数据的大小估计器ForestIV样本分割所有变量的MSE 0。000.250.500.751.00500 1000 1500 2000训练数据的大小平方偏差比率ForestIV在样本分割上的平方偏差比率0。500.751.001.251.50500 1000 1500 2000训练数据的大小方差比ForestIV对样本分割的方差比0。000.250.500.751.00500 1000 1500 2000训练数据大小MSE比率ForestIV与样本分割的比率图6:ForestIV与样本分割之间的平方偏差、方差和MSE比较。垂直条形图显示95%的置信区间。第一行中的三个图显示了lnCnt的平方偏差、方差和MSE,这是机器学习产生的变量。第二行的三个图显示了模型中所有变量的平方偏差、方差和均方误差。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-3 15:36