楼主: 大多数88
2079 79

[经济学] 利用数据挖掘变量实现可靠的因果推断:一个随机模型 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

68%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
64.1703
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
23514 点
帖子
3880
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Achieving Reliable Causal Inference with Data-Mined Variables: A Random
  Forest Approach to the Measurement Error Problem》
---
作者:
Mochen Yang, Edward McFowland III, Gordon Burtch and Gediminas
  Adomavicius
---
最新提交年份:
2020
---
英文摘要:
  Combining machine learning with econometric analysis is becoming increasingly prevalent in both research and practice. A common empirical strategy involves the application of predictive modeling techniques to \'mine\' variables of interest from available data, followed by the inclusion of those variables into an econometric framework, with the objective of estimating causal effects. Recent work highlights that, because the predictions from machine learning models are inevitably imperfect, econometric analyses based on the predicted variables are likely to suffer from bias due to measurement error. We propose a novel approach to mitigate these biases, leveraging the ensemble learning technique known as the random forest. We propose employing random forest not just for prediction, but also for generating instrumental variables to address the measurement error embedded in the prediction. The random forest algorithm performs best when comprised of a set of trees that are individually accurate in their predictions, yet which also make \'different\' mistakes, i.e., have weakly correlated prediction errors. A key observation is that these properties are closely related to the relevance and exclusion requirements of valid instrumental variables. We design a data-driven procedure to select tuples of individual trees from a random forest, in which one tree serves as the endogenous covariate and the other trees serve as its instruments. Simulation experiments demonstrate the efficacy of the proposed approach in mitigating estimation biases and its superior performance over three alternative methods for bias correction.
---
中文摘要:
将机器学习与计量经济分析相结合在研究和实践中越来越普遍。常见的经验策略包括应用预测建模技术,从可用数据中“挖掘”感兴趣的变量,然后将这些变量纳入计量经济学框架,目的是估计因果效应。最近的工作强调,由于机器学习模型的预测不可避免地不完美,基于预测变量的经济计量分析可能会因测量误差而产生偏差。我们提出了一种新的方法来缓解这些偏见,利用集成学习技术称为随机森林。我们建议使用随机森林不仅用于预测,还用于生成工具变量,以解决预测中嵌入的测量误差。当由一组树组成时,随机森林算法的性能最佳,这些树在各自的预测中是准确的,但也会犯“不同”的错误,即预测错误的相关性较弱。一个关键的观察结果是,这些属性与有效工具变量的相关性和排除要求密切相关。我们设计了一个数据驱动的程序,从随机森林中选择单个树的元组,其中一棵树作为内生协变量,其他树作为其工具。仿真实验证明了该方法在减少估计偏差方面的有效性,并且与三种不同的偏差校正方法相比,其性能优越。
---
分类信息:

一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--
一级分类:Computer Science        计算机科学
二级分类:Computers and Society        计算机与社会
分类描述:Covers impact of computers on society, computer ethics, information technology and public policy, legal aspects of computing, computers and education. Roughly includes material in ACM Subject Classes K.0, K.2, K.3, K.4, K.5, and K.7.
涵盖计算机对社会的影响、计算机伦理、信息技术和公共政策、计算机的法律方面、计算机和教育。大致包括ACM学科类K.0、K.2、K.3、K.4、K.5和K.7中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--

---
PDF下载:
--> Achieving_Reliable_Causal_Inference_with_Data-Mined_Variables:_A_Random_Forest_A.pdf (632.33 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据挖掘 随机模型 econometrics instrumental Applications

沙发
可人4 在职认证  发表于 2022-4-26 14:40:51 |只看作者 |坛友微信交流群
通过数据挖掘变量实现可靠的因果推断:ARandom Forest方法解决测量误差问题Mochen Yang,Edward McFowland III,Gordon Burtch,Gediminas AdomaviciusUniversity of Minnesota,Carlson School of Management 2020年12月22日摘要机器学习与经济计量分析相结合在研究和实践中越来越普遍。常见的实证策略包括应用预测建模技术,从可用数据中“挖掘”感兴趣的变量,然后将这些变量纳入计量经济学框架,目的是估计因果影响。最近的研究表明,由于机器学习模型的预测不可避免地存在缺陷,基于预测变量的计量经济学分析可能会因测量误差而产生偏差。我们提出了一种新的方法来缓解这些偏见,利用集成学习技术称为随机森林。我们建议使用随机森林不仅用于预测,还用于生成工具变量,以解决预测中嵌入的测量误差。当由一组预测准确的树组成时,随机森林算法表现最好,是的,这些树也会犯“不同”的错误,即预测错误相关性较弱。一个关键的观察结果是,这些属性与有效工具变量的相关性和排除要求密切相关。我们设计了一个数据驱动的程序,从随机森林中选择个体树的元组,其中一棵树作为内生协变量,另一棵树作为工具。

使用道具

藤椅
能者818 在职认证  发表于 2022-4-26 14:40:57 |只看作者 |坛友微信交流群
仿真实验证明了该方法在减少估计偏差方面的有效性,以及其优于三种替代偏差校正方法的性能。关键词:机器学习、计量经济学分析、工具变量、随机森林、因果推理1简介预测性机器学习的优势使研究人员能够从各种类型的数据中提取有用的信息,如文本和图像,否则很难或代价高昂地大规模编纂。例如,最近的学术研究强调,前沿预测技术现在能够从谷歌街景图像(Gebru等人,2017年)中出现的汽车模型和品牌推断出当地人群的社会经济属性(例如收入/种族分布),并基于dru g属性检测不良药物事件(Ryu等人,2018年)。这些测量现在可以大规模使用,而且成本很低,可以对经济学、医疗保健和许多其他领域的重要问题进行实证研究。事实上,许多研究人员已经开始这样做,首先使用预测机器学习来填充感兴趣的变量,例如,使用文本挖掘工具来预测文本情绪,然后将该变量作为独立的协变量纳入计量经济学模型。这种做法已在多个社会科学领域盛行,包括经济学(Jelveh等人,2015年)、政治学(Fong and Tyler,2017年)和管理学(Yang等人,2018年)。然而,最近的研究也指出,基于这一配方进行推断的尝试可能会因测量误差而受到内生性的影响(Yang等人,2018年)。

使用道具

板凳
可人4 在职认证  发表于 2022-4-26 14:41:03 |只看作者 |坛友微信交流群
这是因为机器学习模型的预测不可避免地是不完美的,预测误差会作为测量误差遗留到后续的计量经济学模型中,导致参数估计存在偏差和不一致。测量误差可能会导致高估或低估系数(Loken和Gelman,2017年),即使机器学习模型达到合理的预测性能,偏差程度也可能很大(Yang等人,2018年)。因此,机器学习产生的协变量中测量误差产生的估计偏差可能会破坏后续用户推断和决策的有效性。在本文中,我们提出了一种新的方法来解决这个问题。我们的方法基于仪器变量回归的概念,这是计量经济学文献中解决内生性的一种行之有效的方法,包括源自测量误差的内生性(Greene,2003)。我们利用了这个问题集的一个显著的独特特性,即先应用机器学习,然后再应用回归。具体而言,我们利用了这样一个事实,即预测性机器学习模型通常是使用真实标签(假设可以完美测量)可用的数据进行训练和评估的,这些数据用于量化预测误差和模型性能。这组完美测量的数据为克服通常与评估仪器有效性相关的困难提供了一个独特的机会。为了找到候选工具,我们依靠随机森林(Breiman,2001),这是一种集成学习方法,它聚集了一组个体决策树(弱学习者),以得出准确的预测。

使用道具

报纸
能者818 在职认证  发表于 2022-4-26 14:41:10 |只看作者 |坛友微信交流群
之前的工作已经证明,随机森林的表现共同取决于(i)组成森林的树木产生相关预测的程度,以及(ii)树木产生弱相关预测误差的程度(Breiman,2001;Bernard等人,2010)。我们证明,这些概念与支撑有效工具变量的相关性和排除标准密切相关。基于此,我们希望探索随机森林集合,以识别个体树木的集合,这样一棵树的预测可能作为感兴趣的经济计量模型中的内生协变量,而其他树的预测则作为其工具,从而减轻由于测量误差而产生的估计偏差。根据工具变量和随机森林文献中的理论,我们开发了实现这一想法的算法,通过经验选择最佳的单株树集来减少系数估计中的偏差。我们称我们的程序为ForestIV。我们进行了两组综合模拟实验,考虑到数据挖掘的协变量是连续的和二进制的,因此分别受到连续测量误差或误分类的影响。在这两种情况下,我们都表明ForestIV可以有效地缓解估计偏差。我们还报告了ForestIV的敏感性分析,并将其性能与三种替代偏差校正方法进行了对比。应该注意的是,ForestIV提供了一种通用方法,用于通过机器学习生成的协变量纠正偏差,无论是来自结构化还是非结构化数据(例如文本或图像)。

使用道具

地板
mingdashike22 在职认证  发表于 2022-4-26 14:41:16 |只看作者 |坛友微信交流群
对于涉及结构化数据的场景,随机森林广泛适用于各种有监督的机器学习问题,对于大量现实世界的预测问题,随机森林是最精确的技术之一(Fern’andez Delgado et al.,2014)。然而,即使在涉及非结构化数据的场景中,其他技术(例如深层神经网络)可能是最先进的,随机森林也可以有效地与它们结合。例如,随机森林可以用神经网络学习的中间表示进行叠加;也就是说,网络中间层的输出(对从非结构化数据中学习到的信息丰富的高级特征进行编码)可以作为随机森林算法的输入特征。值得注意的是,这种做法在Trans-sfer学习中非常常见,在Trans-sfer学习中,有监督的机器学习模型是基于另一种技术产生的特征构建的(Goodfello等人,2016)。我们的爸爸做出了几个显著的贡献。首先,我们从理论和实证上证明,所提出的ForestIV方法有效地解决了计量经济学模型中的估计偏差对机器学习产生的协变量中的测量误差的影响。因此,ForestIV提高了机器学习与计量经济分析相结合的过程中产生的因果推断和决策的稳健性。其次,我们设计了数据驱动程序,利用标记的数据(用于构建和评估机器学习模型)从经验上选择最适合偏差校正目的的工具。第三,ForestIV代表了一种从随机森林技术的输出中自动获取候选仪器的新方法。

使用道具

7
大多数88 在职认证  发表于 2022-4-26 14:41:22 |只看作者 |坛友微信交流群
这为识别有效仪器这一经常具有挑战性的问题提供了可行的解决方案。2 ForestIV具有连续的内生协变量。我们的工作由计量经济学文献(关于测量误差、工具变量和生成的回归器)以及机器学习文献(关于随机森林)提供信息。我们在附录a中回顾了相关文献。在本节中,我们将描述由连续协变量的机器学习预测引起的测量误差问题。然后,我们将介绍我们提出的ForestIV解决方案的理论依据和实施细节。2.1计算的连续测量误差问题我们首先设置连续协变量的测量误差问题。请注意,对于暴露含义,我们使用简单的线性回归作为待估计的计量经济模型的表示,但基本理论论点可以推广到其他计量经济规范,例如广义线性模型。考虑一个线性回归模型,Y=XβX+ZβZ+ε,(1)其中Y代表因变量,{X,Z}代表独立的协变量(Z包括控制变量和常数项),ε是外生随机误差项,β={βX,βZ}表示要估计的模型系数。重要的是,X不是直接在数据中观察到的,而是依赖于它的替代物bX,例如,一个二元响应模型——Probit或Logit——可以表示为一个潜在的线性模型,带有依赖变量的二元变换,测量误差针对潜在的线性模型。基于机器学习模型的预测,例如随机森林。例如,如果X代表一个社区的贫困水平,那么BX可以表示从谷歌街景图片中预测的最低贫困水平。

使用道具

8
nandehutu2022 在职认证  发表于 2022-4-26 14:41:29 |只看作者 |坛友微信交流群
相比之下,协变量Z直接在数据中观察到,并且被精确测量(没有测量误差)。因此,正在进行的实际估计是Y在{bX,Z}上的回归。在本节中,我们假设X和BX是连续变量,而Z可以包含连续变量和分类变量。在后面的章节中,我们将讨论XandbX是二进制变量的情况。由于机器学习模型的预测不可避免地会有一定程度的误差,因此bX通常是X的不完全误差,并且包含连续的测量误差。已知独立协变量中存在测量误差会导致有偏回归估计。作为一个示例,考虑与相加无关(也称为经典)测量误差的情况,其中bX=X+e,e独立于X。因此,估计的回归方程为bXβX+ZβZ+(ε)- eβX)。(2) 因为Cov(bX,(ε- eβX)=-βXσe6=0,从内生性到测量误差inbX的回归影响,导致有偏的系数估计(Greene,2003)。(有关此问题的正式设置,请参见附录B。)2.2为EST构建随机考虑构建随机森林(或任何预测性机器学习模型)以预测X的任务。典型的方法是收集一定数量的标记数据,其中实际观察到要预测的结果。更具体地说,将研究人员可以访问的整个数据集表示为D。假设研究人员从D中获取一个随机子样本,表示为Dlabel,并获得该子样本的(精确测量的)基本事实,例如,通过手动标记。然后,将数据标签随机划分为DTRAIN和Dtest,其中DTRAIN将用于构建随机森林模型和Dtest,以评估生成的模型的性能。

使用道具

9
kedemingshi 在职认证  发表于 2022-4-26 14:41:35 |只看作者 |坛友微信交流群
对于保留标记的数据集中的数据,Dunlabel=D\\Dlabel,将部署随机林模型来生成predictionsbX。正如在越来越多与政策相关的环境中常见的那样,感兴趣的数据集通常包含大量未标记的数据。由于获取地面真相标签的成本,数据标签的大小通常比Dunlabel的大小小得多。因此,考虑到可能存在的较大差异,研究人员可能无法以令人满意的统计能力来估计他们对DLabel感兴趣的计量经济学模型。也就是说,使用Dunlabel中的信息估计经济计量模型可能有可能大大提高估计的精度(由于其样本量较大)。2.3从随机森林生成候选工具在本节中,我们考虑从随机森林生成工具,这是ForestIVE方法的核心。在提供正式的理论结果之前,我们首先确定设置并列出假设。我们考虑了一个基于n个训练样本和p特征建立的由{1,…,M}索引的M棵个体树的随机森林模型。在一个由特征向量f={f,…,fp}表示的新数据点上,d表示独立树i的p预测∈ {1,…,M}asbX(i),以及森林asbX的预测,其中bx=MPMi=1bX(i)。给定基本事实X,预测误差相应定义为e(i)=bX(i)- 我们在gour理论结果中做了三个假设。前两个假设来自Scornet等人(2015),该假设建立了随机森林预测的一致性,第三个假设是测量误差文献中的标准假设。假设1(地面真值函数,Scornet等人,2015年)。接地电阻可以表示为X=Ppj=1mj(fj)+ζ,其中特征{f。

使用道具

10
可人4 在职认证  发表于 2022-4-26 14:41:41 |只看作者 |坛友微信交流群
,fp}均匀分布在[0,1]p上,ζ代表独立的中心高斯噪声,具有有限的方差,每个分量mj(.)是连续的。该假设表明,基本事实是输入特征的单变量函数之和。尽管随机森林是一种非参数模型,但其性质的分析通常在加性模型的框架内进行(Scornet等人,2015)。假设2(树木生长,Scornet等人,2015年)。表示每棵树的叶子数,以及用于构建每棵树的训练数据点的计数。让我们→ ∞, tn→ ∞, 我们假设tn(logan)/an→ 这个假设,作为一个规律性条件,控制着随机森林中树木的生长速度。假设3(经典测量误差)。作为n→ ∞, 单个树的预测误差采用经典形式,即limn→∞EiEfCov(X,e(i))=0。这一假设在理论测量恐怖文献中非常常见,这意味着(渐进地)单个树的预测误差与地面真相不相关(例如,Hausman等人,1991年;Newey,2001年;Li,2002年;Schennach,2004年;Schennach和Hu,2013年)。定理1。在假设1-3下,对于随机森林中的任意两棵树,i和j(i6=j),limn→∞EiEjEfCov(bX(j),e(i))=0。这一结果(其证明见附录H)表明,一棵树的预测和另一棵树的预测误差之间的预期协方差为0,这为工具有效性提供了渐近保证,因此,为将随机森林中的树木视为另一棵树的工具提供了理论基础。为了提供这一基础的直观性,我们重新研究了估计回归Y=bXβX+ZβZ+(ε- eβX),其中bx是内源性的。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-10-5 21:31