用于实验设计的机器学习：改进的分块方法 - 第2页 - 外文文献专区

11楼

发表于 2022-4-16 10:39:52

（替代的基于分数的划分）现有的获取progransticScores和执行顺序分配的方法可能会产生太多的块，因为它关注于样本中的预测性能。学习GF P SDOs的第一阶段预测方法是利用Etools来控制过拟合（使yi不受yi太大的影响），但仍可能产生许多独特的Y水平，这是序列分配器关注的全部问题。我们需要将学习GF、P和构造分配的联合过程处理为一种组合分区方法，利用CV来控制最终的复杂度（块数）。如果我们想要一种可以创建块数小于最大值的分区的cecond-stage分区方法，我们可能想要比顺序分配器更复杂。选项包括：这里也可以使用预生成的YPRE1，但除非使用不同的算法估计，否则它不会提高性能。o简单：一个缩放的顺序分配器，它创建的块比N/CB少，但大小仍然大致均匀。这很简单，但远不是最优的。o复杂：由于我们只处理单个维度，将有许多可能的分区，我们可以联合优化拆分规则，而不是使用诸如CART之类的贪婪解决方案。一个简单的方法是从分位数拆分开始，然后使用坐标下降顺序地优化每个拆分，直到没有任何变化。不管实际使用的划分方法是什么，复杂度仍然应该根据CVPerformance来调整。由于这是一个两阶段的过程，对于每个迭代f，我们使用除fold f以外的所有数据学习一个单独的GFF P Sandpartition，创建每个块中的平均预后Score的结果预测，然后查看fold f上的样本外性能。2.5在FPS和Vst之间做出决定有不同的方法根据可用数据确定使用哪种策略:o如果还有另一个预处理期，如果不是，那么我们可以使用交叉验证来比较性能，这里我们在不同的模型类型之间选择，而不是在单个模型类型的不同超参数之间选择。鉴于我们需要有足够的单位每块，一个2倍的CV版本是最好的，以最大限度地保持折叠的大小。可以通过多重乘子分裂对结果进行平均以降低噪声。请注意，这在较大的数据集上效果最好。在决定使用哪种策略后，考虑到可能存在时间依赖性，我们使用themodel在使用YPre2而不是YPre1.2.6不同的前期数据2.6.1时变协变量时生成分区。如果存在时变协变量Zit，那么它们应该以与YPre2相同的方式使用。在对ypre2建模时使用zpre1，然后使用更新的值zpre2来构造最终的分区。2.6.2+pre-periods使用更多的时间周期，我们可以改进过程的几个部分。一种选择是使用上述策略和额外的前瞻性预测。o变量选择：使用变量M={ypre2,ypre1,X,ypre1,ypre2}并直接或通过针对Ypre3的初始特征选择方法构建分区。oFPS：从Ypre3≈gF P S+(ypre2,ypre1,X）生成预测值。第二种选择是使用Ypre3在减少估计的MSE和标准误差的目标之间找到最佳权衡。对于使用来自{ypre2,ypre1,X}的数据创建的每个候选分区，可以模拟不同的随机化，然后计算平均值。我们注意到，另一个简单的替代方案是使用针对ypre2的Cart并在ypre2=gf P S(X,ypre1)上阻塞来创建分区。

12楼

能者818

发表于 2022-4-16 10:39:58

这种解决方案在单维分区中可能没有任何好处，因为贪婪的解决方案将导致非常不均匀的大小分布（一些块的大小大约是其他块的两倍）。注意，直接比较上述模型在YPre2上的分区性能将会有偏差，因为ML模型是在该数据上训练的。标准误差和MSE（假设在pre3中没有实际处理）。在给定两个目标之间的最优权重的情况下，可以选择最佳的分区。当数据稀少时，使用额外的信息来通知ML模型可能会更有利。如果有充分的理由相信默认的分区复杂性是非最优的（例如，特殊的研究偏好），那么后一种选择可能是更好的。3其他随机化方法在这里回顾其他主要的随机化方法，配对匹配和再随机化，以及当选择任何一种方法而不是阻断时如何修改上述策略。3.1配对匹配配对匹配将样本分成相似的对，每对随机分配一个处理和控制单元。如果实验者希望沿着一个确定的不变量改善平衡，可以通过将该变量包含在匹配准则中来显式地实现。策略的应用:o变量选择：使用上述特征选择方法选择匹配空间并构造匹配对是很简单的。每个单元都有其所选特征的值M，因此我们的任务变成用一种方法将单元分成成对，这种方法试图最小化总的对内差异（其中我们将距离定义为M中的几何距离，但我们通过每个维的重要性wk来加权）。这类似于1-1匹配估计中处理控制单元的匹配问题，与该领域相似，最优解(Greevy，2004)相当困难，因此mostimplementations采取寻找“最近可用匹配”的方法（King et al.，2007)。因此，我们同样建议：随机选择可用单元，并将它们与最近的可用单元配对。o未来预后评分：使用预测模型生成预后评分，根据评分对单元进行排序，然后依次将它们分成两对。策略之间的选择：由于我们可以产生类似于块级假人的对级假人，因此选择过程与阻断相同。3.2再随机化/最小化再随机化技术(Taves，1974；Pocock和Simon，1975)反复随机化治疗和控制臂的单元，直到重要变量之间的不平衡满足某些标准。常用的方法有两种：“大棒法”（Big Stick）和“min-max法”（Min-max）,前者是重新排列，直到没有重要变量在预先指定的水平上有显著差异（通常为5%）；后者是对预先指定的R抽次数（通常为1000）计算重要变量的最大t-统计量差异，然后选择最小最大值的随机化。请注意，与其他方法相比，这确保了平衡的参数化而不是thannon参数化形式，因为我们显式地指定了应该匹配的矩（通常意味着）。我们将重点关注最小-最大策略，但它是直接适用于“大棒”方法的方法。设θrks为rth随机化中两个处理臂之间第k个变量均值差异的t-统计量，因此standardmin-max策略选择r*=arg minr[maxkθrk]。策略的应用:o变量选择：在变量选择设置中，按照前面所述，我们使用特征选择方法来得到所选变量m。

13楼

kedemingshi

发表于 2022-4-16 10:40:04

这将构成表1的集合：系数MSEMethod墨西哥，n=100墨西哥，n=300斯里兰卡，n=100斯里兰卡，n=300fps:随机森林。0242458.007467.0294429.0109078manual：48块。0368593.0093043.0355722.0115674vs:CART.0246845.0079382.00310299.0101904vs:Lasso+CART.0251519.0071399.0285996.0099049variables,我们将比较处理单元和控制单元之间均值差异的t统计量。我们建议通过R*=arg Minr[maxkwkθrk]找到理想随机化来考虑变量的相对重要性。o未来预后评分：使用预测模型生成未来预后评分。设～θrbe为第3次随机化的未来预后评分均值差异的t统计量。由于我们已经折叠了维度，我们现在简单地选择r*=Argminr～θr。策略之间的选择：如果我们可以获得额外的前期数据，那么我们可以以类似的方式在上述方法之间进行选择，同时采用两种方法，看看它们在最小化治疗组和对照组之间YPre3的平均差异方面做得如何。如果我们不这样做，我们可以使用CV的方法来阻止，并在坚持样本中看到两臂之间的平均差异。4模拟为了实证分析我们的策略的执行情况，我们使用Bruhn和McKenzie(2009)的数据和框架，将他们手动构造的阻止与我们的阻止策略进行比较。我们使用其框架中包含两个以上预处理结果期的两个数据集：斯里兰卡微型企业小组调查（de Mel et al.，2008)和墨西哥就业调查(ENE)的子样本。在这两项研究中，被研究的亚组没有接受任何治疗。我们将前两个周期视为pre1和pre2，将第三个周期视为aspost。对于这两者，我们使用n=100和n=300样本来估计结果。斯里兰卡数据有29个协变量，墨西哥样本有30个协变量。我们提出的ML策略的好处通常随着协变量的数量而增加。我们对单位进行了10,000次安慰剂分配的模拟，并评估了上述策略的性能，与Bruhn和McKenzie(2009)的策略相一致，该策略通过手工选择四个变量，然后手动确定一个网格来构建48个块。我们根据治疗效果的MSE（假设我们知道真实效果为零）和标准误差的大小来分析我们的结果。表1报告了估计系数的MSE。我们看到，在所有样本中，我们的所有策略都比手动方法执行得更好。使用最佳ML方法可使MSE减少16%-34%。未来预测评分策略在N=100的墨西哥ENE样本上表现最好，而具有初始特征选择的变量选择策略在N=300的墨西哥ENE样本和斯里兰卡样本上表现最好。表2报告了估计的标准误差长度，这是一种提高精度的度量。所有ML算法在所有采样中都比手工策略表现得更好，使用最佳ML方法的MSE减少了6%-16%。所有三种自动化策略至少在一种情况下表现最好。表2：系数标准误差的大小墨西哥，n=100墨西哥，n=300斯里兰卡，n=100斯里兰卡，n=300fps:随机森林509.4455 268.1693 917.4573 515.8929手册：48块611.7684 300.0989 964.0424 537.3345 vs:CART 525.2979 274.4434 925.6401 499.0057 vs:Lasso+CART 514.9183 264.9388 905.8749 500.78765结论限制实验中的随机化，以减少对预测治疗后结果很重要的变量的治疗控制不平衡，提高效率，防止I型错误，并增加估计处理效果的功率（Bruhn和McKenzie，2009)，特别是对中小型样本。对这一进程的现有指导意见相互矛盾，需要作出许多临时决定。

14楼

kedemingshi

发表于 2022-4-16 10:40:11

我们表明，这种不完全差异是由于对数据生成过程(DGP)的动力学的不同看法。在至少有两个前期价值的基线数据的情况下，我们概述了解决这些差异的方法，并使用现代和现成的机器学习(ML)技术使过程自动化。对于随机化限制的主要类型，即块，我们确定创建块的重要维度，如何创建块，以及应该创建多少块。至关重要的是，为了确定要创建多少块，我们提供了一种方法来平衡提高估计器真实精度的目标（随着更多块的增加而提高）和降低估计标准误差的目标（如果额外的块仅有一点点帮助，由于自由度校正，估计标准误差可能会增加）。应用也显示了随机化限制的其他维护类型：配对匹配和重随机化。在真实世界数据中，我们看到估计系数的均方误差减少了14%-34%，标准误差减少了6%-16%。我们还详细介绍了定制工具，这些工具可以进一步提高性能。Referencessusan Athey和Guido Imbens。异构因果效应的递归分区。《美国国家科学院院刊》，113(27):7353-7360，2016年7月。DOI:10.1073/PNAS.1510489113.Tobias Aufenanger。改进实验设计的机器学习。技术报告，FAU经济学讨论文件，2017年。urlhttps://ideas.repec.org/p/zbw/iwqwdp/162017.html.Thomas Barrios.随机实验中的最优分层。油印机，2014年。urlhttps://scholar.harvard.edu/files/tbarrios/files/opstratv17_0.pdf.a。Belloni,D.Chen,V.Chernozhukov和C.Hansen。应用于征用域的最优仪器的稀疏模型和方法。Econometrica，80(6):2369-2429，2012.DOI:10.3982/ecta9626.Alexandre Belloni和Victor Chernozhukov。高维稀疏模型中模型选择后的最小二乘法。伯努利，19(2):521-547，2013年5月。DOI:10.3150/11-BEJ410。Leo Breiman。分类和回归树。查普曼和霍尔，纽约，1993年。ISBN9780412048418.Leo Breiman。随机森林。机器学习，45(1):5-32,2001。Doi:10.1023/a:1010933404324。Miriam Bruhn和David McKenzie。追求平衡：在实践中随机化，在开发现场实验中随机化。《美国经济杂志：应用经济学》，1(4):200-232，2009年9月。Doi:10.1257/App.1.4.200.William G.Cochran和Donald B.Rubin。控制观察性研究中的偏差：一个评论。Sankhya：印度统计学杂志，第A辑(1961-2002)，35(4):417-446，1973。ISSN0581572X.网址http://www.jstor.org/stable/25049893.cpmp。专有药品委员会(CPMP)关于调整基线协变量的要点。医学统计学，23(5):701-709，2004。DOI:10.1002/Sim.1647.苏雷什·德·梅尔、大卫·麦肯齐和克里斯托弗·伍德拉夫。微型企业的资本回报率：来自一个现场实验的证据。经济学季刊，123(4):1329-1372，2008年11月。DOI:10.1162/Qjec.2008.123.4.1329.r。A.费舍尔。实验设计。奥利弗和博伊德，爱丁堡，1935年。杰罗姆·弗里德曼，特雷弗·黑斯蒂，罗伯特·蒂布希拉尼。广义线性模型的坐标下降正则化路径。《统计软件学报》，33(1)，2010.DOI:10.18637/JSS.V033.I01.R。格里维。随机化前的最优多元匹配。生物统计学，5(2):263-275，2004年4月。DOI:10.1093/BioStatistics/5.2.263.b。B.汉森。倾向评分的预后类比。生物统计学，95(2):481-488，2008年2月。DOI:10.1093/生物统计/ASN004。特雷弗·黑斯蒂、罗伯特·蒂布希拉尼和杰罗姆·弗里德曼。统计学习的要素。Springer-Verlag New York Inc.,2009。ISBN 0387848576。urlhttps://www.ebook.de/de/product/8023140/trevor_hastie_robert_tibshirani_jerome_friedman_the_elements_of_statistical_learning.html.gE.辛顿和R.R.萨拉赫迪诺夫。

15楼

kedemingshi

发表于 2022-4-16 10:40:17

利用神经网络对数据进行降维。科学，313(5786):504-507，2006。ISSN 0036-8075。DOI:10.1126/Science.1127647。URLhttp://science.sciencemag.org/content/313/5786/504.Paul W.Holland.统计和因果推论。美国统计协会杂志，81(396):945-960，1986。ISSN 01621459。网址http://www.jstor.org/stable/2289064.Guido Imbens，Gary King，David McKenzie和Geert Ridder。关于随机实验中的有限样本收益软分层。Mimeo，2009。W Kernan。临床试验分层随机化。临床流行病学杂志，52(1):1999年1月19-26日。Doi:10.1016/S0895-4356(98)00138-3.加里·金和理查德·尼尔森。为什么倾向评分不应该用于匹配。油印机，2016年。网址https://gking.harvard.edu/files/gking/files/psnot.pdf.Gary King、Emmanuela Gakidou、Nirmala Ravishankar、Ryan T.Moore、Jason Lakin、ManettVargas、Martha Maria Téllez-Rojo、Juan Eugenio Hernandez'Avila、Mauricio Hernandez Llamas。一个“政治稳健”的公共政策评估实验设计，并应用于墨西哥全民健康保险计划。政策分析与管理学报，26(3):479-506，2007。DOI:10.1002/PAM.20279.S。J.波科克和R.西蒙。在对照临床试验中平衡预后因素的序贯治疗分配。生物测定学，31:103-115，1975年3月。ISSN 0006-341X，Paul R.Rosenbaum和Donald B.Rubin。倾向评分在因果效应观察研究中的核心作用。生物统计学，70(1):41-55，1983。ISSN 00063444。URLhttp://www.jstor.org/stable/2335942.Max Tabord-Meehan。随机对照试验中自适应随机化的分层树。工作文件，2018年10月。网址https://sites.northwestern.edu/mtu579/.Matt Taddy。商业数据科学。麦格劳-希尔教育有限公司，2019年。ISBN 1260452778。urlhttps://www.ebook.de/de/product/34596223/matt_taddy_business_data_science.html.Donald R.Taves。最小化：一种将患者分配到治疗组和对照组的新方法。《临床药理学与治疗学》，15(5):443-453，1974年5月。DOI:10.1002/CPT1974155443。Robert Tibshirani。通过套索回归收缩和选择。皇家统计学会杂志。系列B（方法学），58(1):267-288，1996年。ISSN 00359246。URLhttp://www.jstor.org/stable/2346178.邹慧。自适应套索及其oracle特性。美国统计协会杂志，101(476):1418-1429，2006年12月。DOI:10.1198/016214506000000735。分区的另一种树拆分规则虽然分区算法适合于一组数据，但它们被设计为不适合于这些数据集，而是被调优为能够很好地处理样本从中提取的一般数据集。这样做的标准方法是拟合粒度不断增加的完整分区序列，每个分区侧重于样本内的拟合，然后选择在CV Oospredictions上做得最好的分区。由Athey和Imbens(2016)首创的另一种方法是，在我们知道将使用分区的辅助样本大小的情况下，将样本外焦点直接纳入每个分裂决策。以Cart为例，我们可以把典型的目标函数写成找到使“修正的”MSEMSE(π；Spre)=-nx`∈πn`μ(`；Spre,π)最小化的划分。Athey和Imbens(2016)表明，如果我们在分裂期间考虑辅助样本，我们应该使期望的MSE最小化，它可以估计为\\emse(π；Spre)=-nx`∈πn`μ(`；Spre,π)+nx`∈πn`V(μ(`；Spre,π))，其中我们现在惩罚在它们的估计中有高方差的块。使用它进行分区需要自定义工具（Athey和Imbens(2016)提供了关于估计处理效果的分区工具，而不是估计结果的分区工具），所以我们将此留待以后的工作。b可供选择的可用数据库1。1 pre-periodt这是以前文献中研究的典型案例。

16楼

大多数88

发表于 2022-4-16 10:40:18

我们可以自动化标准策略的几个部分，但我们不能处理DGP的一般时间动态：o变量选择：由于我们只有一个单一的结果，我们没有一个单独的目标来共同从[X，ypre1]中选择最佳变量。因此，我们借鉴Bruhn和McKenzie(2009)的指导思想，强制包含Ypre1，并分别从以Ypre1为目标的特征选择模型中选择特征x*。同样，我们也不能基于联合预测模型来构造分区。我们可以构造一个adaptivegrid（如上）。实验者必须给ypre1comparedx中的变量一个相对权重。明显的候选者将是BEPK∈X*WK（这样YPRE1的权重与所有X*)或X*PK∈X*WK（来自X*)的平均权重）。o预后评分：从YPRE1≈gP S(X)的模型中构造简单的预后评分。然后根据它们的预后评分排序单元，并将它们划分为一组CB。策略之间的选择：在这里，实验者必须对DGP中的时间依赖量采取立场（这可能在另一个数据源中进行评估）。备注5。（辅助样本）如果有一个具有改进数据的辅助样本（例如，[X，y，y]，并且没有应用任何处理），那么我们可以使用辅助样本构造分区树，并将分区带到主样本。如果主样本较小，那么它可以被修剪回来，直到最小的单元至少有CBUnits。由于没有足够的数据来调整这种新的分区以适应样本外的性能，它可能会导致比最优的更多的块。B.2零前期结果如果没有预处理结果存在，但有协变量X，那么一个替代方案是使用无监督降维技术，如主成分分析或神经网络自动编码器来选择块变量（通过识别边际解释方差何时开始减小来选择维数）。分区可以被构造为一个均匀分布的、基于分位数的网格粒度，足够大，以至于smallestcell的大小为CB。这可能会导致比最佳值略多的块。

[经济学] 用于实验设计的机器学习：改进的分块方法 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群