楼主: mingdashike22
1195 3

[经济学] DoWhy:一个用于因果推理的端到端库 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
74.0016
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24862 点
帖子
4109
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
mingdashike22 在职认证  发表于 2022-4-19 19:19:56 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
摘要翻译:
除了对治疗效果进行有效的统计估计之外,因果推论的成功应用还需要对观察到的数据背后的机制做出具体假设,并测试它们是否有效,以及在多大程度上有效。然而,大多数用于因果推理的库只专注于提供强大的统计估计器的任务。我们描述了DoWhy,这是一个开源的Python库,它是以因果假设作为其第一类公民构建的,它基于因果图的正式框架来指定和测试因果假设。DoWhy提出了一个API,用于任何因果分析的四个常见步骤--1)使用因果图和结构假设对数据建模,2)识别期望的效果在因果模型下是否可估计,3)使用统计估计器估计效果,最后4)通过稳健性检查和敏感性分析反驳所获得的估计。特别是,DoWhy实现了许多健壮性检查,包括安慰剂测试、引导测试和未加注意的混杂测试。DoWhy是一个可扩展的库,它支持与其他实现的互操作性,例如用于估计步骤的EconML和CausalML。该库可在https://github.com/microsoft/dowhy获得
---
英文标题:
《DoWhy: An End-to-End Library for Causal Inference》
---
作者:
Amit Sharma, Emre Kiciman
---
最新提交年份:
2020
---
分类信息:

一级分类:Statistics        统计学
二级分类:Methodology        方法论
分类描述:Design, Surveys, Model Selection, Multiple Testing, Multivariate Methods, Signal and Image Processing, Time Series, Smoothing, Spatial Statistics, Survival Analysis, Nonparametric and Semiparametric Methods
设计,调查,模型选择,多重检验,多元方法,信号和图像处理,时间序列,平滑,空间统计,生存分析,非参数和半参数方法
--
一级分类:Computer Science        计算机科学
二级分类:Artificial Intelligence        人工智能
分类描述:Covers all areas of AI except Vision, Robotics, Machine Learning, Multiagent Systems, and Computation and Language (Natural Language Processing), which have separate subject areas. In particular, includes Expert Systems, Theorem Proving (although this may overlap with Logic in Computer Science), Knowledge Representation, Planning, and Uncertainty in AI. Roughly includes material in ACM Subject Classes I.2.0, I.2.1, I.2.3, I.2.4, I.2.8, and I.2.11.
涵盖了人工智能的所有领域,除了视觉、机器人、机器学习、多智能体系统以及计算和语言(自然语言处理),这些领域有独立的学科领域。特别地,包括专家系统,定理证明(尽管这可能与计算机科学中的逻辑重叠),知识表示,规划,和人工智能中的不确定性。大致包括ACM学科类I.2.0、I.2.1、I.2.3、I.2.4、I.2.8和I.2.11中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Mathematical Software        数学软件
分类描述:Roughly includes material in ACM Subject Class G.4.
大致包括ACM学科类G.4的材料。
--
一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--

---
英文摘要:
  In addition to efficient statistical estimators of a treatment\'s effect, successful application of causal inference requires specifying assumptions about the mechanisms underlying observed data and testing whether they are valid, and to what extent. However, most libraries for causal inference focus only on the task of providing powerful statistical estimators. We describe DoWhy, an open-source Python library that is built with causal assumptions as its first-class citizens, based on the formal framework of causal graphs to specify and test causal assumptions. DoWhy presents an API for the four steps common to any causal analysis---1) modeling the data using a causal graph and structural assumptions, 2) identifying whether the desired effect is estimable under the causal model, 3) estimating the effect using statistical estimators, and finally 4) refuting the obtained estimate through robustness checks and sensitivity analyses. In particular, DoWhy implements a number of robustness checks including placebo tests, bootstrap tests, and tests for unoberved confounding. DoWhy is an extensible library that supports interoperability with other implementations, such as EconML and CausalML for the the estimation step. The library is available at https://github.com/microsoft/dowhy
---
PDF下载:
--> English_Paper.pdf (277.81 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Dow Why econometrics Multivariate Intelligence

沙发
何人来此 在职认证  发表于 2022-4-19 19:20:03
DoWhy:一个用于因果推断的端到端库Amit Sharma,Emre KicimanMicrosoft ResearchAbstract,指定关于所观察数据的机制的假设,并测试它们是否有效,以及在多大程度上有效。然而,大多数用于因果推理的库只专注于提供强大的统计估计器的任务。我们描述了DoWhy,这是一个开源的Python库,它是以因果假设作为其firefrstclass公民构建的,它基于因果图的正式框架来指定和测试因果假设。Dowhy提出了一个API,用于任何因果分析的四个常见步骤:1)使用因果图和结构假设对数据进行建模,2)在因果模型下识别期望的效果是否可估计,3)使用统计估计器估计效果,以及4)通过稳健性检查和敏感性分析反驳所获得的估计。特别是,DoWhy实现了许多健壮性检查,包括安慰剂测试、引导测试和未加注意的混杂测试。DoWhy是一个可扩展的库,支持与其他实现的互用性,例如用于估计步骤的EconML和CausalML。数据科学中的许多问题基本上都是因果问题,例如营销活动或新产品特性的影响、客户流失的原因、哪种药物对哪个病人最有效,等等。随着数据科学的发展,许多实践者正在意识到因果推理在从数据中提供洞察力方面的价值。然而,与supervisedmachine learning的简化体验不同的是,使用Tensor Trinow(Abadi et al.,2016)和PyTorch(Paszke et al.,2019)这样的库,构建因果推理分析并不简单。实现最先进的因果推理方法的软件库可以加速工业界和学术界的数据分析师采用因果推理。然而,我们发现,对于熟悉非因果方法和未实践使用因果方法的数据科学家和机器学习工程师来说,最大的挑战之一是建模假设的实践(即,将领域知识转化为因果图)以及这些假设对因果识别和估计的影响。什么是正确的模式?另一个挑战是验证和测试实用性的转变。不像有监督的机器学习模型可以使用保留的测试数据进行评估,因果任务通常没有可用的基本真理答案。因此,检查核心假设和应用敏感性测试对获得结果的正确性至关重要。但是如何检查这些假设呢?因此,我们构建了DoWhy,一个用于因果分析的端到端库,它建立在建模假设和稳健性检查的最新研究基础上(Athey and Imbens,2017;Kócóman and Sharma,2018),并为分析师提供了一个简单的界面,以遵循因果推断的最佳实践。具体来说,DoWhy的API围绕任何因果分析所需的四个关键步骤进行组织:建模、识别、估计和反驳。Modelences将先验知识编码为正式的因果图,识别基于图的方法来识别因果效应,估计使用统计方法来估计已经发现的估计,并通过测试对InitialModel假设的鲁棒性来反驳获得的估计。arxiv:2011.04216 v1[stat.me]2020年11月9日与Python和R中许多仅关注估计(第三步)的现有因果推断库相比,关注所有四个步骤,从数据到最终因果估计(以及其鲁棒性的度量)是DoWhy的关键区别。这些库期望分析师能够构建可靠的因果分析、模型(Pearl,2009)和潜在的结果(Imbens和Rubin,2015)。

藤椅
mingdashike22 在职认证  发表于 2022-4-19 19:20:09
它使用基于图的标准和微积分来建模假设和识别非参数因果效应。对于估计,实现估计步骤的itother库。它目前支持调用EconML(Mictor-Research,2019)和CausalML(Chen et al.,2020)Estimators。总而言之,DoWhy为因果推断方法提供了一个统一的接口,并自动调用https://github.com/microsoft/DoWhy和31个贡献者。许多人做出了关键的贡献,提高了可用性和更多的社区贡献。图书馆有三个关键的贡献:1.明确的,并确定一个期望的因果效果。2.图形模型和潜在结果的主要框架。3.对违反行为的估计。2.为什么和因果推断的四个步骤几乎所有的方法都遵循四个关键步骤。图1显示了DoWhy分析流水线的示意图。为因果问题建模。DoWhy为EachProblem创建了一个潜在的因果图形模型(Pearl,2009)。这有助于使每个因果假设变得明确。这张图不必是完整的--自动地将其余的变量视为潜在的混乱因素。识别因果关系。可能的方法是识别因果关系的表达式。支持的识别标准是:后门标准o前门标准o工具变量o中介(直接和间接影响识别)III。估计因果效应。DOWHY支持基于后门标准和所获得估计的统计意义的方法。支持的估计方法包括,图1:DOWHY中的四步分析管道。o基于估计治疗分配的方法:基于倾向的分层、预测得分匹配、逆倾向加权o基于估计结果模型的方法:线性回归、广义线性模型o基于工具变量的方法:二元仪器/沃尔德估计器、两阶段最小二乘、回归间断o用于前门标准和一般中介的方法:两阶段线性回归。反驳所得到的估计。使用dowhy的一个关键优点是使用多种反驳方法来验证因果估计器的效果。支持的反驳方法包括:o添加随机公共原因:在我们将一个独立的随机变量作为公共原因添加到数据集后,估计方法是否改变了它的估计?(提示:不应该)o安慰剂治疗变量与独立随机变量?(提示:效果应该为零)o虚拟结果:变量与独立的随机变量?(提示:效果应该为零)o模拟结果:当我们将结果替换为应该匹配数据生成过程中的效果参数时,估计的因果效果会发生什么)o将未观察到的常见原因:常见原因(混淆)添加到与治疗和结果相关的数据集中?(提示:不应该太敏感)o数据子集验证:随机选择子集的数据集?(提示:不应该)o引导验证:当我们用来自相同数据集中的引导样本替换givendataset时,估计的效果是否有显著的变化?(提示:不应该)以上许多方法旨在驳斥完整的因果分析,包括建模、识别和估计(如安慰剂治疗或虚拟结果),而其他方法则驳斥特定的步骤(例如,只测试估计步骤的数据集和引导验证)。3因果分析示例在本节中,我们展示了使用DoWhy的因果推断如何简化为四行代码,每行代码对应于四个步骤中的一个。每次分析都从建立因果模型开始。这些假设可以用图形或条件独立性陈述来看待。只要有可能,DoWhy还可以使用观察到的数据自动测试声明的假设。

板凳
大多数88 在职认证  发表于 2022-4-19 19:20:11
根据数据和给定的图创建一个因果模型。模型=CausalModel(data=data[“df”],treatment=data[“treatment_name”],outcome=data[“outcome_name”],graph=data[“gml_graph”])给定模型,识别是一个因果问题。估计只是一个统计问题。Dowhy尊重这一界限,并分别对待它们。这就把因果推断的精力集中在识别上,估计方法可以用于单个识别的估计,反之亦然。识别因果效应并返回目标estimandsidentified_estimand=model.identify_effect()#iii。使用统计方法估计目标估计值。Estimate=Model.Estimate_Effect(identified_estimand,method_name=“backdoor.propensity_score_stratization”)对于具有高维混杂的数据,基于机器学习的估计值可能更有效。因此,DoWhy支持从其他库(如EconML)调用估计值。下面是一个使用双重机器学习估计器的示例(Chernozhukov et al.,2017)。导入econmldml_estimate=model.estimate_Effect(identified_estimand,method_name=“backdoor.econml.dml.dmlcateEstimator”,frefitence_intervals=false,method_params={“init_params”:{\'model_y\':gradientboostingregarsor(),\'model_t\':gradientboostingregarsor(),因果分析中最关键的,也是经常被跳过的部分,是检查一个估计的稳健性。DoWhy使得自动运行对所获得的估计值的敏感性和健壮性检查变得容易。使用多个稳健性检查反驳所获得的估计。refite_results=model.refite_estimate(identified_estimatand,estimate,method_name=“random_common_case”)动词是相互独立的,因此它们的实现可以以任何方式组合。示例notebooksmaster/docs/source/example_notebooks。4结论我们提出了dowhow,这是一个可扩展的端到端的因果推理库。与大多数其他库不同,分析和支持更多的评估方法,其4步API.Connectionsa非常感谢所有DoWhy的开源贡献者,他们继续为DoWhy/blob/master/contributing.md.referencesAbadi,M.,Barham,P.,Chen,J.,Chen,Z.,Davis,A.,Dean,J.,Devin,M.,Ghemawat,S.,Irving,G.,Isard,M.等人做出重要的补充。张量信息系统:一个用于大规模机器学习的系统。在:第12届{usenix}operatingsystems设计和实现研讨会({osdi}16)。2016年,265-283。Athey,S.和Imbens,G.W.(2017)。应用计量经济学的现状:因果关系和政策评估。《经济观点杂志》,31(2),3-32.学习。Chernozhukov,V.Chetverikov,D.Demirer,M.Du Sciro,E.Hansen,C.和Newey,W.(2017)。治疗效果的双/去偏/内曼机器学习。《美国经济评论》,107(5),261-65。Imbens,G.W.和Rubin,D.B.(2015)。统计学、社会和生物医学科学中的因果推理。CambridgeUniversity Press.Kócóman,E,&夏尔马,A.(2018)。因果推理和反事实推理教程。https://causalinference.gitlab.io/kdd-tutorial/microsoft-research。(2019年)。ECONML:一个用于基于ML的异质性治疗效果估计的Python包[版本0.6].Paszke,A.,Gross,S.,Massa,F.,Lerer,A.,Bradbury,J.,Chanan,G.,Killeen,T.,Lin,Z.,Gimelshein,N.,Antiga,L.等。PyTorch:一个命令式的、高性能的深度学习库。在:神经信息处理系统的发展。2019,8026-8037.珀尔,J.(2009).因果关系。剑桥大学出版社。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-30 11:30