楼主: mingdashike22
1783 46

[经济学] 利用机器学习建立福利预警系统 [推广有奖]

21
mingdashike22 在职认证  发表于 2022-4-24 15:20:22
示例包括:收入支持系统的退出和进入、福利金额和期限、工资和收入、就业时间、工作数量(包括同时担任的工作)的年度波动,以及同一雇主内和雇主之间工作安排(每周工作日和时数)的变化。DOMINO数据的一个局限性是缺乏直接测量个人非认知能力或行为倾向的变量,如风险偏好或前瞻性行为。我们为这些不可观察的因素加入了一系列代理变量。例如,我们包含了一系列(超过60个)衡量过去就业期和收入支持历史的强度和波动性的指标(见在线附录A)。这种劳动力市场历史变量14已被证明是预测失业和再就业成功的行为特征的良好替代物,吸收了诸如受教育年限、自我报告的求职和责任心等特征的变化(Van Landeghem et al.2021)。此外,我们还包括了一些措施,例如该个人是否曾因违规原因受到制裁或福利被取消。事实上,被制裁的一种解释可能是注册人的组织混乱或延误(Banerjee和Duflo 2014)(例如,为了履行共同义务或活动测试要求)。然而,我们认识到,这些措施可能也反映了其他因素和制约因素(Klapdor 2013)。4.方法4.1简单和启发式模型我们首先提供了ML绩效的基准,并代理从业者在预测福利依赖风险个体时使用的当前方法。

22
能者818 在职认证  发表于 2022-4-24 15:20:28
为此,我们估算了简单的OLS模型,该模型预测了2015年至2018年间个人用于收入支持的时间比例,如表2所示。最基本的基准是只包含常数项的回归(模型1)。在此基础上,我们评估了人口特征的预测能力:性别(模型2)、教育程度(模型3)和年龄(模型4)。然后我们考虑收入支持历史的预测能力——即一系列二进制变量,标准杆数分别指示个人是否在2014的任何时间收到收入支持付款,分别用于不同类型的收入支持支付-在模型5中。另一个自然基准是估计启发式模型,该模型包括过去文献中确定为福利依赖关键驱动因素的变量,如性别、年龄、教育水平、父母状况、移民状况、种族、婚姻状况、居住状况和失业状况(模型6)。通过添加模型5(模型7)中的收入支持历史,我们进一步增强了该模型。此外,鉴于过去文献中对局部邻里效应的强调(Chetty et al.2018),我们在模型8中包含了详细的地理信息。最后,我们测试了ML模型相对于澳大利亚政府目前用于防止福利依赖的分析指标的潜在预测增益(模型9)。如第2节所述,这些指标适用于估计终身福利成本最高的三个群体:15名24岁或以下的年轻看护者、领取特定收入补助金的学生和18岁或以下的年轻父母。4.2机器学习方法启发式模型依赖于一小部分变量和数据简化的简单聚合等方法。

23
mingdashike22 在职认证  发表于 2022-4-24 15:20:35
然而,在实践中,简单的模型不太可能代表福利依赖背后的复杂过程。幸运的是,我们的基线数据具有更大的灵活性,因为它包含一组丰富的可能预测因素。我们包括一系列广泛的预测因子和每个预测因子的不同函数形式。例如,我们包含了一整套指标变量,包括接收者的出生国、婚姻状况、就业和教育状况,以及这些变量之间的其他非线性表达式(以及复杂的交互作用)(如在线附录中的详细描述)。继Mullainathan和Spiess(2017年)之后,我们不会删除冗余或聚合变量,因为它们可能有助于以较低的复杂性获得更好的预测。例如,我们包括记录家庭中孩子数量的分类变量,同时还包括一组广泛的二元指标,指示家庭规模和生育进展。最终的结果是,我们有大约1800个可能的预测因子。此外,如果我们开始考虑这些预测因子之间的相互作用项,变量的数量可以达到甚至超过数据中的个体数量。在标准的OLS回归中,这是不可能的。相比之下,ML可以有效地处理高维数据。这使我们能够识别变量之间以前未检测到的关系。然而,增加模型复杂性(以更多变量、更多交互或更灵活的函数形式)的一个常见问题是过度拟合。当估计模型与训练样本紧密匹配,但与新样本不匹配时,这个问题就很明显。

24
mingdashike22 在职认证  发表于 2022-4-24 15:20:41
通过估计简单模型(例如,主观选择的变量较少)很难解决过拟合问题,因为这可能会导致模型拟合不足,排除强大的预测因素。例如,如果y和x之间的真实关系是二次的,则线性模型将是欠拟合(高偏差),而估计四次多项式将导致过度拟合(高方差)。ML通过仔细减少变量的数量以及一个称为正则化的过程来解决偏差-方差权衡问题。后者保留了所有变量,但降低了每个系数的大小。当有许多变量有助于以具有统计意义的方式预测结果时,这种方法很有效16,尽管在经济上不算严重。我们使用了三种不同的ML算法,它们使用其中一种或两种方法进行降维。评估一系列ML模型(正如我们所做的)是明智的,因为每种模型都有其优缺点。正如Athey和Imbens(2019)所指出的,没有正式结果表明一种ML方法优于另一种。因此,选择使用哪种算法往往是相当随意的。我们选择估计不同类别的ML模型,包括LASSO、支持向量回归(SVR)和Boosting(见表2模型10-12)。这使我们能够评估具有不同灵活性和可解释性的算法。鉴于套索与OLS的相似性,它很容易解释,也很容易解释。SVR提供了极其灵活的函数形式。类似地,Boosting是一种非常灵活的基于树的算法,可以解释输入之间可能存在的大量交互。

25
nandehutu2022 在职认证  发表于 2022-4-24 15:20:47
事实上,在这个特定的应用程序中,我们在Boosting算法中允许输入变量之间进行多达6路的交互。我们在在线附录中简要总结了这些算法。黑斯蒂等人(2009年)、穆莱纳坦和斯皮斯(2017年)、阿西和伊本斯(2019年)等对从业者可用的工具进行了更全面的审查。我们遵循Mullainathan和Spiess(2017)的建议,将数据分为两个子样本。使用一个训练样本(80%的数据)来校准和估计每种ML方法下的算法。样本外性能使用保留样本(剩余20%的数据)报告。在线附录中提供了我们校准程序的详细分步说明。在许多情况下,单一算法的性能不如多种方法的组合。不同的机器学习算法可能捕获数据的不同特征。因此,结合这些算法——正如贝茨和格兰杰(1969年)所开创的那样——可能会带来更好的性能(Athey和Imbens,2019年)。如Mullainathan和Spiess(2017)所述,我们在表2模型13中汇总了三种主要ML算法(模型10的LASSO、模型11的SVR和模型12的Boosting)的预测,使用通过对这些预测值的结果进行线性回归得到的权重。结果表2显示了上述模型在使用2014年的可用信息预测2015年至2018年间个人获得收入支持的时间比例时的样本外表现。对于每个模型,我们报告均方误差(MSE),以比较不同模型的预测精度。MSE是一个被广泛接受的标准,用于衡量预测连续变量的模型的性能。

26
大多数88 在职认证  发表于 2022-4-24 15:20:53
鉴于其直观的吸引力,我们还报告了皮尔逊相关系数的平方,即实际和拟合因变量之间的相关性。这相当于线性最小二乘回归中的R2。所有这些拟合优度度量都是使用保持样本进行样本外估计的。我们使用一个单独的训练样本来估计和校准模型。在线附录中的表B4报告了样本中的性能。在模型2-4中,我们报告人口特征的预测能力有限:仅包含性别或教育信息的OLS模型的样本外R2为3%或更低(模型2-3)。使用年龄作为预测因子的OLS模型解释了结果变量中更高的变异百分比(17.4%,模型4)。考虑到几个收入支持项目的年龄要求,这是可以预期的。尽管与模型2-3相比,预测性能有所改善,但R2的绝对值仍然较低。在模型5中,我们证明了收入支持历史与未来福利依赖密切相关。具体而言,一个简单的OLS模型,包括2014年收到的任何收入支持付款的二元指标(分别针对不同类型的付款),可以解释随后四年收入支持时间比例的近60%的可变性。在模型6中,我们发现启发式模型并没有实质性地提高性能。这是令人惊讶的,因为经济学家通常使用人口特征、地理位置、就业和教育状况的一组预测指标来解释经济行为。进一步将这组预测值添加到模型5(即,有收入支持历史)只会导致MSE的小幅降低。

27
何人来此 在职认证  发表于 2022-4-24 15:21:00
这表明,我们的收入支持历史指标更能预测未来的福利收入强度。当我们扩展控制集以包含详细的地理信息时,我们得到了类似的结论(模型8)。此外,我们还表明,在OLS规范(模型9)中建模时,“尝试、测试和学习”计划中确定的三个风险群体的预测能力较低。18重要的是,表2中的结果表明,使用ML利用行政数据中已有的更大信息集(案例工作者可以访问这些信息),可以提高绩效(模型10-13)。因此,ML预测一旦被整合到“尝试、测试和学习”项目中使用的当前识别方法中,就可以作为针对高危人群的早期干预的第一步。无论采用何种特定的ML算法,这些改进都能持续实现。考虑到它们的数据拟合机制(就函数形式和交互术语所允许的灵活性而言)的对比,各种算法的性能稳定性既令人放心又令人惊讶。在模型13中结合所有三种算法(模型10的LASSO、模型11的SVR和模型12的Boosting)进一步提高预测性能。值得注意的是,我们在不过度拟合数据(如表B4所示)的情况下,通过使用全套观测值的1%随机样本,获得了这种样本外预测精度。在我们的上下文中,它表明,为了正确校准这些ML算法,不需要进一步增加样本量(以及随之而来的计算成本)。与基准模型(模型1-9)相比,集成方法的性能明显更好。

28
大多数88 在职认证  发表于 2022-4-24 15:21:06
具体而言,其样本外MSE小于仅使用常数(模型1)的基本基准模型的相应MSE的四分之一。此外,它的MSE比模型5的MSE减少了42%,只有收入支持历史记录。自举置信区间在平均MSE附近也很紧,这表明OLS和ML模型之间预测性能的所有比较都显著不同于零。类似地,样本外R2跃升至76%以上,与样本外R2最高的OLS模型(模型8)相比,几乎增加了14个百分点(或22%)——同样没有额外成本。根据我们对年度累计福利成本总额的粗略计算,与精算模型中确定的规模相当(三个)的群体相比,ML模型中确定的个人累计了9.9亿澳元的额外福利成本。从规模上看,这大约占年度失业救济金支出总额(AIHW 2019b)的10%。尽管LASSO、SVR和Boosting模型之间的样本外预测相关性非常高(介于0.97和0.99之间),但这一改进还是实现了,这表明即使在这些条件下,加权和组合不同算法也有额外的好处。19.鉴于模型5表2中的结果,缺乏时间或资源来开发和应用更复杂模型的机构可以以中等程度的准确度识别系统中已经存在的个人,这些个人有可能在很长一段时间内仅使用过去的收入支持支付信息来依赖收入支持。

29
nandehutu2022 在职认证  发表于 2022-4-24 15:21:12
或者,我们可以关注LASSO(模型10表2)和Boosting(模型12表2)中最强大的预测因子:表3列出了这两种算法选择的最强大的预测因子。虽然这些变量中的大多数都不足为奇,但其中的一个子集——如收入波动、搬家次数和未能完成经济状况调查——并没有在简单的预警系统中经常使用。如表4中的模型1-3所示,在OLS模型中使用这些选定的输入将产生较高的样本外性能。因此,虽然ML算法达到了最低的样本MSE,但这些算法的见解可以很容易地融入到更简单的建模框架中,如OLS模型。如果技术、政治或行政障碍阻止ML算法在更大范围内实现,这一点尤其有用。6.扩展和健壮性检查表4报告了额外的扩展和健壮性检查。尽管有记录表明土著和非土著居民之间存在巨大的经济不平等(Markham和Biddle,2018年),但土著地位在这方面的预测能力有限(模型4)。当关注出生国(模式5)时,也得出了类似的结论。在模型6中,为了调查收入支持依赖性受当地因素的影响程度,我们进一步扩展了详细的地理输入集,以包括近2500个邮政编码,但我们没有对仅包括收入支持历史信息的模型(表2中的模型5)进行实质性改进。将父母福利收入的指标(一个已被证明能增加自身福利收入可能性的因素(Cobb-Clark等人2017年、Dahl等人2014年、Dahl和Gielen 2020年)纳入启发式模型中,对样本外绩效的影响微乎其微(模型7-8)。

30
kedemingshi 在职认证  发表于 2022-4-24 15:21:18
最后,模型9至11使用了与表2中启发式模型6相同的变量,但作为分数结果回归(FOR)的输入–概率规范(以说明我们在表B5中的样本绩效报告)。值得强调的是,正如在线附录B节所讨论的,增加权重并结合来自多个(基于树的)分类器的不同预测,在每次迭代中,它只使用训练数据的一个随机子集来构建这样的树。因此,与LASSO算法相比,该算法对异常值更具鲁棒性,并且产生的顶级预测值列表不太可能受到训练样本中特定观察值或值的影响。20将结果变量聚集在0和1处,如图1所示),并作为Boosting算法和LASSO算法(而不是OLS模型)的输入。分数结果回归的样本外R2从30.6%增加到31.2%;对于Boosting算法,它增加到37.3%。这表明,交互项和非线性确实在这种情况下发挥了作用,但它们不足以达到与具有收入支持历史变量的OLS模型或具有全套输入的ML算法相同的性能。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-26 19:35