楼主: 大多数88
2999 79

[经济学] 利用数据挖掘变量实现可靠的因果推断:一个随机模型 [推广有奖]

51
mingdashike22 在职认证  发表于 2022-4-26 14:46:16
第三行的三个图显示了当考虑所有变量时,两个估计器之间的平方偏差、方差和均方误差的比率。有偏见的;有偏见的;有偏见的;有偏见的;有偏见的;有偏见的;有偏见的;有偏见的;有偏见的;有偏见的;有偏见的;有偏见的;有偏见的;有偏见的;有偏见的;无偏见的;有偏见的;有偏见的;有偏见的;有偏见的;有偏见的;有偏见的;调查;抽样;抽样;抽样;50%抽样;抽样;50%抽样;抽样;抽样;50%抽样;抽样;抽样;50%抽样;抽样;抽样;50%抽样;抽样;抽样;抽样;70%抽样;抽样;抽样;抽样;抽样;抽样;调查;抽样;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查;调查][0.000][0.000]Z2。0.000(0.003)1.999(0.011)2.000(0.003)2.000(0.003)1.999(0.003)1.999(0.003)[0.459][0.524][0.977][0.885][0.822][0.667]Z1。01.000(0.002)0.999(0.006)1.000(0.002)1.000(0.002)1.000(0.002)1.000(0.001)[0.480][0.486][0.989][0.846][0.947][0.944]平均均方误差0.150 0.017 0.096 0.166 0.132表6:使用树子集:自行车共享数据的结果。括号中的标准错误。p值将估计值与方括号内的真实值进行比较。Ave MSE包含与100次模拟运行中的每组估计值相关的Ave MSE。与有偏差的估计相比,这些估计只取得了很小的改进。注意,与所有O(2)可能的子集相比,我们只探索了数量非常有限的子集,并且我们将每个工具限制为来自单个树的预测(而不是来自树子集的聚合预测)。完全探索所有可能的内生变量和工具变量对(每个都由树子集组成)显然是不可行的。

52
mingdashike22 在职认证  发表于 2022-4-26 14:46:22
未来的研究可能会进一步发展这一查询途径,研究潜在的启发式或优化方法,以减少大量树子集枚举的计算负担。E.4.3多个估计值的平均值我们现在检查ForestIV程序中多个估计值的平均值是否可以增强偏差校正。具体而言,在ForestIV的第3步中,我们没有选择一组使经验MSE最小化的估计值,而是对所有未被霍特林Ttest拒绝的估计值进行平均。表E中报告了平均估计数以及有偏、无偏和ForestIV估计数。4.3.真实有偏无偏前stIV平均森林干扰1.0 0.702(0.063)1.018(0.204)0.957(0.1 34)0.797(0.086)[0.004][0.511][0.745][0.018]lnCnt 0.50.566(0.013)0.498(0.040)0.512(0.27)0.545(0.018)[0.002][0.530 0.652][0.011 Z2。02.000(0.003)1.999(0.011)2.000(0.03)2.000(0.003)[0.459][0.524][0.977][0.977]Z1。0.1.000(0.002)0.999(0.006)1.000(0.0 02)1.000(0.002)[0.480][0.486][0.989][0.987]平均均方误差0.150 0.017 0.101表7:平均估计:自行车共享数据的结果。括号中的标准错误。p值将估计值与方括号内的真实值进行比较。Ave MSE包含与100次模拟运行中的每组估计值相关的Ave MSE。051015200.500 0.525 0.550 0.575 LNCNTdensity的效率图7:100次模拟运行中lnCnt上的ForestIV估计分布我们可以看到,在这种情况下,虽然多个估计值的平均确实在一定程度上继续缓解偏差,但它并不像我们的基线ForestIV方法那样有效,它采用了使经验均方误差最小化的单元组。

53
何人来此 在职认证  发表于 2022-4-26 14:46:28
平均的有限效用是因为估计值并非“对称”分布在系数的真实值周围(关于lnCnt上平均系数的分布,见图E.4.3)。相反,价值观的分布在单一方向上系统地偏离了真实价值观。这在一定程度上并不令人惊讶,因为已知2S-LS估计在有限样本中存在偏差(Nagar,1959;Buse,1992)。因此,与选择“最佳”元组(使经验MSE最小化的元组)相比,平均值产生的校正结果更差。注:有些元组可能最终无法通过霍特林的Ttest测试,尽管其中包含无效或较弱的工具(请记住,未能拒绝完全等效假设并不意味着应“接受”所述空值)。直观地说,通过选择“最佳”元组,我们应用了最严格的p值阈值,从而降低了我们在最终估计中无意中保留较差工具的可能性。如果保留的工具质量较低,它们可能会使结果的估计偏向有偏差的OLS(Murray,2006;Wooldridge,2002),这正是我们在这里观察到的。尽管如此,我们相信,未来的工作可以调查平均值在某些条件下是否有利,或者开发新的方法,在某些仪器可能无效或较弱时得出更稳健的估计(例如,基于Conley等人2012年的工作)。F二元内生协变量与银行营销数据F的模拟结果。1.表F中的主要结果。1.我们报告了有偏回归和无偏回归的所有模拟轮的平均系数和标准误差(括号内)。

54
nandehutu2022 在职认证  发表于 2022-4-26 14:46:34
对于ForestIV,我们将100轮模拟中抽样分布的平均系数和标准差报告为标准误差。我们再次计算与t检验相关的pvalue(方括号内),将每个估计系数与其基础真值进行比较。我们可以看到,在回归中直接使用随机森林的预测会导致平均45.6%的低估。ForestIV在减少估计偏差方面同样有效。ForestIV校正系数与其真实值没有显著差异,且ForestIV估计值比无偏估计值的标准误差更小(即更高的估计精度)。真有偏无偏前斯蒂文特塞普1.01.042(0.010)1.013(0.055)0.995(0.017)[0.007][0.454][0.751]沉积物0.50.272(0.040)0.519(0.140)0.516(0.116)[0.000][0.426][0.888 Z2。02.002(0.017)1.999(0.090)2.001(0.016)[0.504][0.581][0.920]Z1。01.001(0.010)1.004(0.052)1.000(0.010)[0.475][0.454][0.941]平均均方误差0.108 0.023表8:银行营销数据的ForestIV结果。括号中的标准错误。p值将ImageMates与方括号中的真值进行比较。Ave MSE包含100次模拟运行中与每组估计值相关的平均经验MSE。F、 2敏感性分析我们进行额外分析,以了解ForestIV在二元内源性卵巢酸盐分类错误的情况下的表现。我们重复对连续病例进行的所有敏感性分析,并在本小节中报告结果。灵敏度分析同样由三部分组成。

55
何人来此 在职认证  发表于 2022-4-26 14:46:41
我们分别就(1)未标记数据的大小,(2)计量经济数据中的噪声量,以及(3)随机森林的预测性能(通过改变树木总数来操作)来检验森林估计的性能。对于本节中的所有模拟,我们使用相同的“银行营销”数据集(Moro等人,2014),除非另有说明,模拟设置与主要手稿中的相同。F.2.1未标记数据的大小我们使用8种不同大小的未标记数据重复模拟,分别为100、500、1000、10000、20000、30000、40000和43211(即所有剩余实例)。在图F中。2.1,我们根据不同大小的未标记数据绘制了95%置信区间和存款点估计。ForestIV估计值的95%置信区间被构造为抽样分布的2.5%和97.5%之间的范围。-1.5-1-0.50.00.51.01.50 10000 20000 40000未标记数据的大小存款偏差系数Forestiv无偏差-0.2-0.10.00.10.20.30.40.50.60 10000 20000 40000未标记数据大小存款偏差系数ForestIV图8:C不同大小未标记数据的存款的置信区间和点估计。左面板显示了不同大小未标记数据的存款估算的95%置信区间。右面板显示了基于单个模拟运行的不同大小的未标记数据的存款点估计。存款的真实系数是0.5。我们观察到的模式与连续内源性协变量的情况相同。首先,不管未标记数据的大小,有偏估计都会保持有偏。另一方面,当有足够的未标记数据可用时,ForestIV会产生收敛估计。

56
大多数88 在职认证  发表于 2022-4-26 14:46:47
拥有更多未标记的数据可以进一步缩小存款的置信区间,这表明估算精度有所提高。同时,尽管存在一些局部波动,但单次模拟的点估计值支持相同的观察结果。F.2.2计量经济数据中的噪声我们通过将σε从2增加到5,在计量经济数据中引入更高的噪声。下表总结了模拟结果。2.2.我们观察到,虽然存款的平均点估计几乎与σε=2时相同,但相关的平均标准误差变得更大,这是数据中噪声增加的直接结果。最后,与无偏估计相比,ForestIV估计在估计精度上保持明显提高。真有偏无偏前stIVIntercept 1.01.041(0.025)1.030(0.138)0.994(0.038)[0.229][0.483][0.870]沉积物0.50.277(0.099)0.483(0.346)0.513(0.206)[0.115][0.433][0.950]Z2。01.997(0.042)1.999(0.224)1.997(0.040)[0.524][0.558][0.942]Z1。0 1.002(0.024)1.013(0.129)1.002(0.024)[0.480][0.491][0.928]平均均方误差0.317 0.193表9:ForestIV对σε=5的银行营销数据的结果。括号中的标准错误。p值将估计值与方括号内的真实值进行比较。AveMSE包含100次模拟运行中与每组估计值相关的平均经验MSE。随机森林的预测性能我们对随机森林中的树木总数进行了5种不同的选择:25、50、100150和200。我们在下表中报告了每种M的100个模拟回合的平均ForestIV估计值。2.2. 随机森林的预测性能以平均精度来衡量。

57
何人来此 在职认证  发表于 2022-4-26 14:46:54
此外,我们在表的最后一行报告了平均霍特林T统计量,该统计量将βLabel与ForestIV估计值进行了比较。10.67%89.86%89.86%89.89%89.89%89.89%89.89%89.89%89.89%89.85%89.89%89.89%89.89%89.89%89.89%89.89%%%的ZF部门有百百百分之89.89.89%百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百分百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百百6]Z2。0.001(0.016)1.996(0.020)2.001(0.017)2.002(0.017)2.001(0.017)[0.945][0.856][0.920][0.908][0.926]Z1。01.001(0.010)1.002(0.009)1.001(0.010)0.999(0.008)0.999(0.010)[0.905][0.798][0.941][0.894][0.933]平均均方误差0.026 0.022 0.023 0.022。Hotelling Tstats 3.0614 3.0786 2.9300 2.9404 2.6267表10:ForestIV对M.标准误差不同选择的估计值,括号内。p-va值将iMate值与方括号中的真值进行比较。AveMSE包含100次模拟运行中与每组估计相关的平均经验MSE。在这个特殊的例子中,M的不同选择与平均非常相似的精度有关。尽管如此,我们还是观察到了连续情况下的一致模式。具体而言,将平均点估计值作为ForestIV校正性能的指标,M=200在该特定数据集上产生相对更好的校正。

58
大多数88 在职认证  发表于 2022-4-26 14:47:00
树太少(M=25)会影响预测精度和平均校正性能。请注意,校正性能再次与霍特林t统计量的平均值一致,较小的统计量表明校正性能更好。在计量经济学文献中,研究人员提出了替代的ias校正方法,以校正由测量误差引起的估计偏差,如矩量法、基于似然的方法、反卷积、回归校准、,以及模拟外推(关于这些方法的详细讨论,我们参考toGrace,2016)。这些偏差校正方法背后的一个共同主题是,它们都依赖于有关测量误差的统计特性的信息,例如其分布或矩。虽然在大多数情况下,这些信息通常是不可观察的,但当测量误差来自机器学习模型中的预测误差时,这些信息是可用的(Yang等人,2018)。这是因为建立预测性机器学习模型的过程通常涉及对其保留数据的性能进行评估,这一过程产生的性能指标可以反映预测误差(以及测量误差)的程度。在本节中,我们将重点介绍ForestIV与三种可选偏差校正方法的对比:(i)模拟外推(SIMEX),(ii)潜在工具变量(LatentIV),以及(iii)非参数生成回归器的回归调整。我们将在下面简要介绍每种方法。SIMEX(Cook and Stefanski,1994)是一种基于模拟的通用方法,可用于解决任何计量经济模型中的测量误差。

59
可人4 在职认证  发表于 2022-4-26 14:47:06
它直接利用误差大小信息(例如,基于机器学习预测性能的误差方差)创建一组观测数据的自举样本,特别是在每次后续重新采样时引入更大的测量误差。然后,该算法根据不同程度的测量误差估计一组相应的系数,将参数函数设置为系数误差观测值对,并最终将系数估计外推到测量误差为零的情况。虽然最初的SIMEX方法被提出用于解决连续协变量中的测量误差,但研究人员后来开发了一种称为误分类SIMEX(MC-SIMEX)的变体,用于处理不连续协变量中的误分类(K¨uchenho ffe et al.,2006,2007)。灵活性是SIMEX的关键优势。它只需要测量误差的聚合信息,例如,连续协变量的误差方差或二元协变量的召回率,这可以从测试数据中估计。此外,SIMEX可以通过标准程序应用于一大组计量经济模型,并且不需要为每个计量经济模型规范明确重新公式化。Yang等人(2018年)对各种估计器和计量经济学规范全面记录了SIMEX纠正因测量误差而产生的偏差的效果。几项研究还讨论了SIMEX在更复杂的测量误差问题上的应用,例如具有误差倾向的固定和随机效应的GLM(Wang和Lin,1998),以及非参数模型(Carroll等人,1999)。

60
何人来此 在职认证  发表于 2022-4-26 14:47:13
在两个不同的数据集上,我们分别将ForestIV与SIMEX(一个有测量误差的连续协变量)和MC-SIMEX(一个有误分类的二元协变量)进行对比。最近的方法是由Ebbes等人(2005年、2009年)提出的,以解决线性回归模型中的内生性问题,而不使用可观察工具。LatentIV通过对潜在(即未观察到的)离散工具建模来实现识别,以解释内生协变量和回归模型误差项之间的相关性。我们使用自行车共享数据集对ForestIV和LatentIV进行基准测试。最后,我们考虑在生成的回归系数文献中提出的一种特殊回归调整方法。Meng等人(2016年)研究了线性回归的估计,其中一个协变量不是直接观察到的,而是可以基于相关数据样本进行近似计算(例如,一个国家的收入不平等衡量指标是未观察到的,但可以从该国的个人收入样本中进行估计)。由于基于样本的未观测协变量近似可能会有噪声,线性回归会受到测量误差问题的影响。作者假设,生成的回归器背后的函数关系在观测值之间是不一致的,因此生成的回归器可以被视为非参数的。Meng等人(2016年)推导出了偏差大小的明确公式,作为测量误差前两个时刻(例如,平均值和方差)的函数,允许对偏差估计进行相应调整。在我们的环境中,测量/预测误差的矩统计可以使用直接观察预测误差的测试数据轻松估计。因此,我们能够实现Meng等人。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-4 00:45