楼主: 何人来此
749 15

[经济学] 用于实验设计的机器学习:改进的分块方法 [推广有奖]

11
大多数88 在职认证  发表于 2022-4-16 10:39:52
(替代的基于分数的划分)现有的获取progransticScores和执行顺序分配的方法可能会产生太多的块,因为它关注于样本中的预测性能。学习GF P SDOs的第一阶段预测方法是利用Etools来控制过拟合(使yi不受yi太大的影响),但仍可能产生许多独特的Y水平,这是序列分配器关注的全部问题。我们需要将学习GF、P和构造分配的联合过程处理为一种组合分区方法,利用CV来控制最终的复杂度(块数)。如果我们想要一种可以创建块数小于最大值的分区的cecond-stage分区方法,我们可能想要比顺序分配器更复杂。选项包括:这里也可以使用预生成的YPRE1,但除非使用不同的算法估计,否则它不会提高性能。o简单:一个缩放的顺序分配器,它创建的块比N/CB少,但大小仍然大致均匀。这很简单,但远不是最优的。o复杂:由于我们只处理单个维度,将有许多可能的分区,我们可以联合优化拆分规则,而不是使用诸如CART之类的贪婪解决方案。一个简单的方法是从分位数拆分开始,然后使用坐标下降顺序地优化每个拆分,直到没有任何变化。不管实际使用的划分方法是什么,复杂度仍然应该根据CVPerformance来调整。由于这是一个两阶段的过程,对于每个迭代f,我们使用除fold f以外的所有数据学习一个单独的GFF P Sandpartition,创建每个块中的平均预后Score的结果预测,然后查看fold f上的样本外性能。2.5在FPS和Vst之间做出决定有不同的方法根据可用数据确定使用哪种策略:o如果还有另一个预处理期,如果不是,那么我们可以使用交叉验证来比较性能,这里我们在不同的模型类型之间选择,而不是在单个模型类型的不同超参数之间选择。鉴于我们需要有足够的单位每块,一个2倍的CV版本是最好的,以最大限度地保持折叠的大小。可以通过多重乘子分裂对结果进行平均以降低噪声。请注意,这在较大的数据集上效果最好。在决定使用哪种策略后,考虑到可能存在时间依赖性,我们使用themodel在使用YPre2而不是YPre1.2.6不同的前期数据2.6.1时变协变量时生成分区。如果存在时变协变量Zit,那么它们应该以与YPre2相同的方式使用。在对ypre2建模时使用zpre1,然后使用更新的值zpre2来构造最终的分区。2.6.2+pre-periods使用更多的时间周期,我们可以改进过程的几个部分。一种选择是使用上述策略和额外的前瞻性预测。o变量选择:使用变量M={ypre2,ypre1,X,ypre1,ypre2}并直接或通过针对Ypre3的初始特征选择方法构建分区。oFPS:从Ypre3≈gF P S+(ypre2,ypre1,X)生成预测值。第二种选择是使用Ypre3在减少估计的MSE和标准误差的目标之间找到最佳权衡。对于使用来自{ypre2,ypre1,X}的数据创建的每个候选分区,可以模拟不同的随机化,然后计算平均值。我们注意到,另一个简单的替代方案是使用针对ypre2的Cart并在ypre2=gf P S(X,ypre1)上阻塞来创建分区。

12
能者818 在职认证  发表于 2022-4-16 10:39:58
这种解决方案在单维分区中可能没有任何好处,因为贪婪的解决方案将导致非常不均匀的大小分布(一些块的大小大约是其他块的两倍)。注意,直接比较上述模型在YPre2上的分区性能将会有偏差,因为ML模型是在该数据上训练的。标准误差和MSE(假设在pre3中没有实际处理)。在给定两个目标之间的最优权重的情况下,可以选择最佳的分区。当数据稀少时,使用额外的信息来通知ML模型可能会更有利。如果有充分的理由相信默认的分区复杂性是非最优的(例如,特殊的研究偏好),那么后一种选择可能是更好的。3其他随机化方法在这里回顾其他主要的随机化方法,配对匹配和再随机化,以及当选择任何一种方法而不是阻断时如何修改上述策略。3.1配对匹配配对匹配将样本分成相似的对,每对随机分配一个处理和控制单元。如果实验者希望沿着一个确定的不变量改善平衡,可以通过将该变量包含在匹配准则中来显式地实现。策略的应用:o变量选择:使用上述特征选择方法选择匹配空间并构造匹配对是很简单的。每个单元都有其所选特征的值M,因此我们的任务变成用一种方法将单元分成成对,这种方法试图最小化总的对内差异(其中我们将距离定义为M中的几何距离,但我们通过每个维的重要性wk来加权)。这类似于1-1匹配估计中处理控制单元的匹配问题,与该领域相似,最优解(Greevy,2004)相当困难,因此mostimplementations采取寻找“最近可用匹配”的方法(King et al.,2007)。因此,我们同样建议:随机选择可用单元,并将它们与最近的可用单元配对。o未来预后评分:使用预测模型生成预后评分,根据评分对单元进行排序,然后依次将它们分成两对。策略之间的选择:由于我们可以产生类似于块级假人的对级假人,因此选择过程与阻断相同。3.2再随机化/最小化再随机化技术(Taves,1974;Pocock和Simon,1975)反复随机化治疗和控制臂的单元,直到重要变量之间的不平衡满足某些标准。常用的方法有两种:“大棒法”(Big Stick)和“min-max法”(Min-max),前者是重新排列,直到没有重要变量在预先指定的水平上有显著差异(通常为5%);后者是对预先指定的R抽次数(通常为1000)计算重要变量的最大t-统计量差异,然后选择最小最大值的随机化。请注意,与其他方法相比,这确保了平衡的参数化而不是thannon参数化形式,因为我们显式地指定了应该匹配的矩(通常意味着)。我们将重点关注最小-最大策略,但它是直接适用于“大棒”方法的方法。设θrks为rth随机化中两个处理臂之间第k个变量均值差异的t-统计量,因此standardmin-max策略选择r*=arg minr[maxkθrk]。策略的应用:o变量选择:在变量选择设置中,按照前面所述,我们使用特征选择方法来得到所选变量m。

13
kedemingshi 在职认证  发表于 2022-4-16 10:40:04
这将构成表1的集合:系数MSEMethod墨西哥,n=100墨西哥,n=300斯里兰卡,n=100斯里兰卡,n=300fps:随机森林。0242458.007467.0294429.0109078manual:48块。0368593.0093043.0355722.0115674vs:CART.0246845.0079382.00310299.0101904vs:Lasso+CART.0251519.0071399.0285996.0099049variables,我们将比较处理单元和控制单元之间均值差异的t统计量。我们建议通过R*=arg Minr[maxkwkθrk]找到理想随机化来考虑变量的相对重要性。o未来预后评分:使用预测模型生成未来预后评分。设~θrbe为第3次随机化的未来预后评分均值差异的t统计量。由于我们已经折叠了维度,我们现在简单地选择r*=Argminr~θr。策略之间的选择:如果我们可以获得额外的前期数据,那么我们可以以类似的方式在上述方法之间进行选择,同时采用两种方法,看看它们在最小化治疗组和对照组之间YPre3的平均差异方面做得如何。如果我们不这样做,我们可以使用CV的方法来阻止,并在坚持样本中看到两臂之间的平均差异。4模拟为了实证分析我们的策略的执行情况,我们使用Bruhn和McKenzie(2009)的数据和框架,将他们手动构造的阻止与我们的阻止策略进行比较。我们使用其框架中包含两个以上预处理结果期的两个数据集:斯里兰卡微型企业小组调查(de Mel et al.,2008)和墨西哥就业调查(ENE)的子样本。在这两项研究中,被研究的亚组没有接受任何治疗。我们将前两个周期视为pre1和pre2,将第三个周期视为aspost。对于这两者,我们使用n=100和n=300样本来估计结果。斯里兰卡数据有29个协变量,墨西哥样本有30个协变量。我们提出的ML策略的好处通常随着协变量的数量而增加。我们对单位进行了10,000次安慰剂分配的模拟,并评估了上述策略的性能,与Bruhn和McKenzie(2009)的策略相一致,该策略通过手工选择四个变量,然后手动确定一个网格来构建48个块。我们根据治疗效果的MSE(假设我们知道真实效果为零)和标准误差的大小来分析我们的结果。表1报告了估计系数的MSE。我们看到,在所有样本中,我们的所有策略都比手动方法执行得更好。使用最佳ML方法可使MSE减少16%-34%。未来预测评分策略在N=100的墨西哥ENE样本上表现最好,而具有初始特征选择的变量选择策略在N=300的墨西哥ENE样本和斯里兰卡样本上表现最好。表2报告了估计的标准误差长度,这是一种提高精度的度量。所有ML算法在所有采样中都比手工策略表现得更好,使用最佳ML方法的MSE减少了6%-16%。所有三种自动化策略至少在一种情况下表现最好。表2:系数标准误差的大小墨西哥,n=100墨西哥,n=300斯里兰卡,n=100斯里兰卡,n=300fps:随机森林509.4455 268.1693 917.4573 515.8929手册:48块611.7684 300.0989 964.0424 537.3345 vs:CART 525.2979 274.4434 925.6401 499.0057 vs:Lasso+CART 514.9183 264.9388 905.8749 500.78765结论限制实验中的随机化,以减少对预测治疗后结果很重要的变量的治疗控制不平衡,提高效率,防止I型错误,并增加估计处理效果的功率(Bruhn和McKenzie,2009),特别是对中小型样本。对这一进程的现有指导意见相互矛盾,需要作出许多临时决定。

14
kedemingshi 在职认证  发表于 2022-4-16 10:40:11
我们表明,这种不完全差异是由于对数据生成过程(DGP)的动力学的不同看法。在至少有两个前期价值的基线数据的情况下,我们概述了解决这些差异的方法,并使用现代和现成的机器学习(ML)技术使过程自动化。对于随机化限制的主要类型,即块,我们确定创建块的重要维度,如何创建块,以及应该创建多少块。至关重要的是,为了确定要创建多少块,我们提供了一种方法来平衡提高估计器真实精度的目标(随着更多块的增加而提高)和降低估计标准误差的目标(如果额外的块仅有一点点帮助,由于自由度校正,估计标准误差可能会增加)。应用也显示了随机化限制的其他维护类型:配对匹配和重随机化。在真实世界数据中,我们看到估计系数的均方误差减少了14%-34%,标准误差减少了6%-16%。我们还详细介绍了定制工具,这些工具可以进一步提高性能。Referencessusan Athey和Guido Imbens。异构因果效应的递归分区。《美国国家科学院院刊》,113(27):7353-7360,2016年7月。DOI:10.1073/PNAS.1510489113.Tobias Aufenanger。改进实验设计的机器学习。技术报告,FAU经济学讨论文件,2017年。urlhttps://ideas.repec.org/p/zbw/iwqwdp/162017.html.Thomas Barrios.随机实验中的最优分层。油印机,2014年。urlhttps://scholar.harvard.edu/files/tbarrios/files/opstratv17_0.pdf.a。Belloni,D.Chen,V.Chernozhukov和C.Hansen。应用于征用域的最优仪器的稀疏模型和方法。Econometrica,80(6):2369-2429,2012.DOI:10.3982/ecta9626.Alexandre Belloni和Victor Chernozhukov。高维稀疏模型中模型选择后的最小二乘法。伯努利,19(2):521-547,2013年5月。DOI:10.3150/11-BEJ410。Leo Breiman。分类和回归树。查普曼和霍尔,纽约,1993年。ISBN9780412048418.Leo Breiman。随机森林。机器学习,45(1):5-32,2001。Doi:10.1023/a:1010933404324。Miriam Bruhn和David McKenzie。追求平衡:在实践中随机化,在开发现场实验中随机化。《美国经济杂志:应用经济学》,1(4):200-232,2009年9月。Doi:10.1257/App.1.4.200.William G.Cochran和Donald B.Rubin。控制观察性研究中的偏差:一个评论。Sankhya:印度统计学杂志,第A辑(1961-2002),35(4):417-446,1973。ISSN0581572X.网址http://www.jstor.org/stable/25049893.cpmp。专有药品委员会(CPMP)关于调整基线协变量的要点。医学统计学,23(5):701-709,2004。DOI:10.1002/Sim.1647.苏雷什·德·梅尔、大卫·麦肯齐和克里斯托弗·伍德拉夫。微型企业的资本回报率:来自一个现场实验的证据。经济学季刊,123(4):1329-1372,2008年11月。DOI:10.1162/Qjec.2008.123.4.1329.r。A.费舍尔。实验设计。奥利弗和博伊德,爱丁堡,1935年。杰罗姆·弗里德曼,特雷弗·黑斯蒂,罗伯特·蒂布希拉尼。广义线性模型的坐标下降正则化路径。《统计软件学报》,33(1),2010.DOI:10.18637/JSS.V033.I01.R。格里维。随机化前的最优多元匹配。生物统计学,5(2):263-275,2004年4月。DOI:10.1093/BioStatistics/5.2.263.b。B.汉森。倾向评分的预后类比。生物统计学,95(2):481-488,2008年2月。DOI:10.1093/生物统计/ASN004。特雷弗·黑斯蒂、罗伯特·蒂布希拉尼和杰罗姆·弗里德曼。统计学习的要素。Springer-Verlag New York Inc.,2009。ISBN 0387848576。urlhttps://www.ebook.de/de/product/8023140/trevor_hastie_robert_tibshirani_jerome_friedman_the_elements_of_statistical_learning.html.gE.辛顿和R.R.萨拉赫迪诺夫。

15
kedemingshi 在职认证  发表于 2022-4-16 10:40:17
利用神经网络对数据进行降维。科学,313(5786):504-507,2006。ISSN 0036-8075。DOI:10.1126/Science.1127647。URLhttp://science.sciencemag.org/content/313/5786/504.Paul W.Holland.统计和因果推论。美国统计协会杂志,81(396):945-960,1986。ISSN 01621459。网址http://www.jstor.org/stable/2289064.Guido Imbens,Gary King,David McKenzie和Geert Ridder。关于随机实验中的有限样本收益软分层。Mimeo,2009。W Kernan。临床试验分层随机化。临床流行病学杂志,52(1):1999年1月19-26日。Doi:10.1016/S0895-4356(98)00138-3.加里·金和理查德·尼尔森。为什么倾向评分不应该用于匹配。油印机,2016年。网址https://gking.harvard.edu/files/gking/files/psnot.pdf.Gary King、Emmanuela Gakidou、Nirmala Ravishankar、Ryan T.Moore、Jason Lakin、ManettVargas、Martha Maria Téllez-Rojo、Juan Eugenio Hernandez'Avila、Mauricio Hernandez Llamas。一个“政治稳健”的公共政策评估实验设计,并应用于墨西哥全民健康保险计划。政策分析与管理学报,26(3):479-506,2007。DOI:10.1002/PAM.20279.S。J.波科克和R.西蒙。在对照临床试验中平衡预后因素的序贯治疗分配。生物测定学,31:103-115,1975年3月。ISSN 0006-341X,Paul R.Rosenbaum和Donald B.Rubin。倾向评分在因果效应观察研究中的核心作用。生物统计学,70(1):41-55,1983。ISSN 00063444。URLhttp://www.jstor.org/stable/2335942.Max Tabord-Meehan。随机对照试验中自适应随机化的分层树。工作文件,2018年10月。网址https://sites.northwestern.edu/mtu579/.Matt Taddy。商业数据科学。麦格劳-希尔教育有限公司,2019年。ISBN 1260452778。urlhttps://www.ebook.de/de/product/34596223/matt_taddy_business_data_science.html.Donald R.Taves。最小化:一种将患者分配到治疗组和对照组的新方法。《临床药理学与治疗学》,15(5):443-453,1974年5月。DOI:10.1002/CPT1974155443。Robert Tibshirani。通过套索回归收缩和选择。皇家统计学会杂志。系列B(方法学),58(1):267-288,1996年。ISSN 00359246。URLhttp://www.jstor.org/stable/2346178.邹慧。自适应套索及其oracle特性。美国统计协会杂志,101(476):1418-1429,2006年12月。DOI:10.1198/016214506000000735。分区的另一种树拆分规则虽然分区算法适合于一组数据,但它们被设计为不适合于这些数据集,而是被调优为能够很好地处理样本从中提取的一般数据集。这样做的标准方法是拟合粒度不断增加的完整分区序列,每个分区侧重于样本内的拟合,然后选择在CV Oospredictions上做得最好的分区。由Athey和Imbens(2016)首创的另一种方法是,在我们知道将使用分区的辅助样本大小的情况下,将样本外焦点直接纳入每个分裂决策。以Cart为例,我们可以把典型的目标函数写成找到使“修正的”MSEMSE(π;Spre)=-nx`∈πn`μ(`;Spre,π)最小化的划分。Athey和Imbens(2016)表明,如果我们在分裂期间考虑辅助样本,我们应该使期望的MSE最小化,它可以估计为\\emse(π;Spre)=-nx`∈πn`μ(`;Spre,π)+nx`∈πn`V(μ(`;Spre,π)),其中我们现在惩罚在它们的估计中有高方差的块。使用它进行分区需要自定义工具(Athey和Imbens(2016)提供了关于估计处理效果的分区工具,而不是估计结果的分区工具),所以我们将此留待以后的工作。b可供选择的可用数据库1。1 pre-periodt这是以前文献中研究的典型案例。

16
大多数88 在职认证  发表于 2022-4-16 10:40:18
我们可以自动化标准策略的几个部分,但我们不能处理DGP的一般时间动态:o变量选择:由于我们只有一个单一的结果,我们没有一个单独的目标来共同从[X,ypre1]中选择最佳变量。因此,我们借鉴Bruhn和McKenzie(2009)的指导思想,强制包含Ypre1,并分别从以Ypre1为目标的特征选择模型中选择特征x*。同样,我们也不能基于联合预测模型来构造分区。我们可以构造一个adaptivegrid(如上)。实验者必须给ypre1comparedx中的变量一个相对权重。明显的候选者将是BEPK∈X*WK(这样YPRE1的权重与所有X*)或X*PK∈X*WK(来自X*)的平均权重)。o预后评分:从YPRE1≈gP S(X)的模型中构造简单的预后评分。然后根据它们的预后评分排序单元,并将它们划分为一组CB。策略之间的选择:在这里,实验者必须对DGP中的时间依赖量采取立场(这可能在另一个数据源中进行评估)。备注5。(辅助样本)如果有一个具有改进数据的辅助样本(例如,[X,y,y],并且没有应用任何处理),那么我们可以使用辅助样本构造分区树,并将分区带到主样本。如果主样本较小,那么它可以被修剪回来,直到最小的单元至少有CBUnits。由于没有足够的数据来调整这种新的分区以适应样本外的性能,它可能会导致比最优的更多的块。B.2零前期结果如果没有预处理结果存在,但有协变量X,那么一个替代方案是使用无监督降维技术,如主成分分析或神经网络自动编码器来选择块变量(通过识别边际解释方差何时开始减小来选择维数)。分区可以被构造为一个均匀分布的、基于分位数的网格粒度,足够大,以至于smallestcell的大小为CB。这可能会导致比最佳值略多的块。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-23 06:05