楼主: 何人来此
748 15

[经济学] 用于实验设计的机器学习:改进的分块方法 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
64.8012
学术水平
1 点
热心指数
6 点
信用等级
0 点
经验
24593 点
帖子
4128
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
何人来此 在职认证  发表于 2022-4-16 10:38:50 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
摘要翻译:
在实验设计中限制随机化(例如,使用阻断/分层、成对匹配或重随机化)可以改善重要协变量的治疗-对照平衡,从而改善对治疗效果的估计,特别是对于中小型实验。关于如何识别这些变量和实施限制的现有指导是不完整和相互冲突的。我们发现差异主要是由于治疗前数据中的重要内容可能无法转化为治疗后数据。我们强调有足够的数据来提供明确指导的设置,并概述使用现代机器学习(ML)技术实现过程自动化的改进方法。我们用实际数据进行了仿真,结果表明,这些方法既减小了估计的均方误差(14%-34%),又减小了标准误差(6%-16%)。
---
英文标题:
《Machine Learning for Experimental Design: Methods for Improved Blocking》
---
作者:
Brian Quistorff and Gentry Johnson
---
最新提交年份:
2020
---
分类信息:

一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--

---
英文摘要:
  Restricting randomization in the design of experiments (e.g., using blocking/stratification, pair-wise matching, or rerandomization) can improve the treatment-control balance on important covariates and therefore improve the estimation of the treatment effect, particularly for small- and medium-sized experiments. Existing guidance on how to identify these variables and implement the restrictions is incomplete and conflicting. We identify that differences are mainly due to the fact that what is important in the pre-treatment data may not translate to the post-treatment data. We highlight settings where there is sufficient data to provide clear guidance and outline improved methods to mostly automate the process using modern machine learning (ML) techniques. We show in simulations using real-world data, that these methods reduce both the mean squared error of the estimate (14%-34%) and the size of the standard error (6%-16%).
---
PDF下载:
--> English_Paper.pdf (491.88 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 实验设计 econometrics Restrictions Experimental

沙发
何人来此 在职认证  发表于 2022-4-16 10:38:58
用于实验设计的机器学习:改进的BlockingBrian Quistorff*和Gentry Johnson的方法2020.11月2日抽象在实验设计中使用随机化(例如,使用阻断/分层、成对匹配或重随机化)可以改善重要协变量上的治疗-对照平衡,从而改善治疗效果的估计,特别是对于中小型实验。关于如何识别这些变量和实施限制的现有指导是不完整和相互冲突的。我们发现差异主要是由于治疗前数据中的重要内容可能无法转化为治疗后数据。我们强调有足够数据的设置,提供明确的指导,并概述使用现代机器学习(ML)技术实现大部分过程自动化的改进方法。我们在使用真实世界数据的模拟中表明,这些方法降低了估计的均方误差(14%-34%)和标准误差的大小(6%-16%)。关键词:机器学习、大数据、实验、因果关系、阻塞、分层、配对匹配、重随机化1在实验设计中,治疗随机化方法可以用来减少估计治疗效果的方差,从而提高效率,防止类型错误,并增加功率(Bruhn和McKenzie,2009)--特别是对于小型和中型实验。这是通过改善变量平衡(治疗组和对照组之间变量分布的相似性)来实现的,这些变量是治疗后结果的重要预测因素。为了说明目的,我们首先看看最常见的随机化方法,阻塞(有时称为分层),最初由Fisher(1935)提出。分块创建样本的分区,将预处理数据分成具有最小大小cB(通常为4个,Kernan1999)的块,并在每个块内分配相等数量的处理单元和控制单元。通过用这些块来划分一个重要变量的范围,可以增加这个变量的平衡。例如,如果我们确保具有一个重要类别变量的不同值的单元被划分为不同的块,那么我们可以确保,即使在有限样本中(不仅仅是在预期中),处理也将与该变量无关。现有的关于如何使用预处理数据的指导并不完全是数据驱动的,因此涉及到实验者的许多决策,浪费时间,并可能导致治疗效果估计的次优。现有的拾取块的策略主要有两种。我们展示了*微软技术+研究。联系人:brian.quistorff@microsoft.com.联系人:gentryaj@amazon.com.在某些情况下,“分层”指的是从人群中提取实验样本,“阻塞”指的是分配治疗。如何通过使用现代现成的机器学习(ML)解决方案来改善两者,使我们提出的程序主要由数据驱动。我们还展示了如何在可用的策略中进行选择。确定块的最常见的方法是我们称之为可变选举。该策略试图选择与治疗后结果密切相关的变量。然后,块由一个(可能不均匀的)网格定义,该网格将每个变量分别拆分并取笛卡尔积。所选变量的数量很小,因为在不重要的变量上分层是有成本的。因本斯等人。(2009)表明,虽然对一个变量的分层不能增加估计的真期望平方误差,但当考虑到分层时,由于自由度调整,它确实增加了其方差的估计,如下文所述(人们可以使用忽略分层的方差估计,但这过于保守)。

藤椅
kedemingshi 在职认证  发表于 2022-4-16 10:39:04
在对这种方法的调查中,Bruhn和McKenzie(2009)建议至少选择预处理outcomevalable(因为大多数结果具有某种单位级持久性)和一个地理变量,因为结果冲击可能在地理区域内相关(即数据生成过程(DGP)是时变的)。有了多个治疗前阶段的数据,他们建议Tone可以根据每个早期变量与后期治疗前结果的相关性来确定哪些额外的变量应该包括在内。即使有许多相关变量,他们也警告不要包含太多,因为每个新变量都会减少现有变量的平衡(假设块有一个最小的大小,因此沿现有维度的粒度必须减少)。在他们的模拟研究中,他们包括四个阻塞变量。他们建议用大致偶数的分位数拆分变量。总体而言,该指南留下了一些未指定的区域(如何准确地确定包含哪些变量,用多少分位数拆分变量)和一些次优区域(当单元在多个选定变量中不均匀分布时,网格划分是次优的,因为增加网格的粒度会很快导致一些网格单元达到最小单元大小)。一种替代的分块策略是使用估计预测模型来确定将哪些单元分组在一起。Barrios(2014)和Aufenanger(2017)都建议,在不同的环境下,使用治疗前数据建立一个使用前期协变量的前期结果模型,然后生成预测值--所谓的前期预后评分(Hansen,2008)。块是通过按其预测分数对单元进行排序并随后分配公共大小的块来形成的。这里的指导是明确的,尽管根据预后评分可能有更多最优的划分方法,因为默认方法可能产生更多的块,而不是有助于最大限度地减少治疗效果,因此导致比必要的标准错误更大。由于对DGP的假设,特别是对其时间特性的假设,这些方法不同。如果DGP随着时间的推移是恒定的,并且根据可用的预测因子和函数形式由预测模型很好地估计,那么预后评分方法是最优的。它既利用变量选择策略丢弃的弱相关协变量,又将所有协变量折叠到一维,从而更容易找到最优划分,从而有效地利用了预处理信息。然而,降低到一个单一维度,往往会导致具有相似预后评分的单位具有非常不同的协变量,如果DGP随时间变化,具有相似治疗前预后评分的单位可能不会有明显的未来预后评分。在这种情况下,对少数已确定的特征(例如,地理和人口统计变量)进行屏蔽是有益的。类似地,如果predictivemodel不能很好地近似DGP的函数形式,那么在单独的变量上块可能比在复合索引上块更有利。如果预测模型是遗漏变量,那么结果变量可能会随着时间的推移而持续存在,而不是被themodel捕获,这使得阻止预处理结果的实际值是有益的,因为这是除了YPRE之外的信息。例如,假设你用一个平方协变量项估计一个模型。然后将一个单元与相反的值靠近,这可能与真实模型有显著差异。我们表明,当有多个预处理周期的数据时,在变量选择和预后评分策略之间有选择的方法。我们还应用standardML工具来实现两者的自动化。

板凳
大多数88 在职认证  发表于 2022-4-16 10:39:10
这包括一个确定块数的策略,这也是一个几乎没有指导的领域,在这里我们平衡了提高估计精度和减少标准误差的目标。大多数改进可以使用现成的MLtools来实现,尽管我们详细说明了一些自定义解决方案将会有所帮助的领域。我们注意到,在其他情况下,人们会希望阻止一个实验。如果期望进行子组分析,通常会这样做,因为(a)预特异性防止了不分青红皂白地搜索统计上有意义的子组的说法,以及(b)它提高了这些估计的精度。我们展示了如何在我们提出的策略中包含这些额外的块约束。最后,值得注意的是,在我们这里不研究的两阶段随机试验中,可以在第二阶段形成块(使用第一阶段的数据),以提高估计精度的方式改变块之间的治疗百分比--所谓的Neyman分配(Tabord-Meehan,2018)。我们在第2节讨论所涉及的基本ML工具和我们提出的策略。在第3节中,我们讨论了这些工具在其他最常见的随机化方法中的应用。在第4节中,我们使用真实世界的数据来比较我们提出的策略与手工构建的阻塞。我们在第5.2节中总结算法。我们首先描述我们的符号并回顾基本目标。然后,我们讨论了几个标准的generalML任务,并着重介绍了目前对每个任务使用的最常用的方法。2.1计量经济学设置假设以下数据生成过程(DGP)yit=βdit+ht(Xi)+uit,其中i∈[1,...,n]指标实验单位(如。客户),t索引时间,如上所述,d是二元处理(前期所有单元为零,处理只在一个时间段内变化),h是潜在的时变,xia是观察到的协变量,而UIT是独立于单元的,但可能与个人的时间相关,因为我们没有测量所有特征。我们假设我们有一个后阶段和至少一个前阶段(即基线)的数据。我们还假设我们将使用来自postand的数据分析实验,包括每个块的虚拟变量。在本文中,正如在实验和因果推理的文献中广泛接受的那样,我们遵循潜在结果框架(Cochran and Rubin,1973;Holland,1986)。更正式地说,如果我们只考虑后期,那么我们就有了单元I的结果。当单位i接受治疗DI=1时,她的结果是yi1,当她接受治疗DI=0时,她的结果是YI0。识别问题是我们不能在两个状态下观察到单元i,这意味着我们必须使用不同的单元来作为i的反事实。平均治疗效果(ATE)定义为β=E[yi1]-yi0]=E[yi1]-[yi0]。虽然Bruhn和McKenzie(2009)指出,在实践中,阻塞假人通常不包括在内,但他们从经验上表明,这导致了过于保守的标准误差。CPMP(2004)类似地指出,“分析应该反映分层所暗示的随机化限制。”~β=E[yi1di=1]-E[yi0di=0]=(E[yi1-yi0di=1])+(E[yi0di=1]-E[yi0di=0])。右边的第一项是对被治疗者的平均治疗效果。这种偏差通常被称为选择偏差。为了消除选择偏差,必须满足条件独立性假设{yio,yi1}}}}diXi(Rosenbaum and Rubin,1983)。在非实验性因果推理设置中,这一假设背后的直觉是,在控制了可观察的特征后,处理与随机处理一样好。

报纸
nandehutu2022 在职认证  发表于 2022-4-16 10:39:16
它还意味着E[yi1Xi,di=1]-E[yi0Xi,di=0]=E[yi1-yi0xi],因此~β=β。在实验设置中,可以很容易地看出,对治疗的随机分配意味着条件独立性假设。事实上,假设成立甚至不需要以XI为条件,因此,在实验环境中的推论通常比在观察环境中的推论更有说服力。虽然纯粹的随机化提供了β的识别,但更复杂的治疗分配机制,如阻断带来了其他优势,如上文简要提到的和下文更详细的描述,激励阻断的标准好处包括减少I型错误、减少II型错误(增加功率)和提高效率。类型I错误是指如果不存在任何影响,就会出现假阳性结果。如果在指定的治疗和预后因素之间存在有限的采样关系,就可能发生这种情况。阻断会减少这种相关性,虽然一些实验者可能会在事后调整前解决这种问题,但事前限制更有效(Bruhn和McKenzie,2009)。因此,我们可以通过减少估计治疗效果的均方误差(MSE)来减少I型误差。第二类错误是指当一个效应存在时,未能检测到该效应的机会。这与两个治疗臂之间的结果差异有直接关系。阻断预后因素可减少样本方差。因此,我们可以通过减少估计治疗效果的标准误差来增加功率。效率是指在一个给定的实验装置中检测一个效应所需的观察次数。虽然依赖于多种因素,但它通常被认为是沿着权力的维度。所需的功率越大,实验就必须越长。因此,我们将从减少标准错误的角度来考虑统计效率。因此,理想情况下,阻塞将减少估计的MSE和估计的标准误差。这两个目标通常是一致的,但并不总是一致的。阻断最重要的预期预后因素通常会改善两者,但如上所述,在估计的标准误差中有一个自由度成本。例如,使用OLS回归公式,DS.E.(β)=QS(~x~x)-1,其中S=U u/(n-b-1),U是拟合的残差,有b块,~x包括d以及所有块变量。假设两个分块分区,分别有b和b+1块。由于处理与阻塞因子正交分配,我们可以忽略(~x~x)-1项中的差异。额外的阻塞可能减少残差uu,但可能通过P1/(n-b-1)项增加标准误差。如果额外的阻塞不能改善残差,那么以标准误差的相对增加来表示的成本s.e.(τb+1)ds.e.(τb)=rn-b-1n-b-2。该成本随着样本量的增加而减少,并且以样本量为条件,每个额外的块的成本越来越高(尽管有界,因为块的最大数量大致为n/cb。)对于(~x~x)-1的对角线元素,测量~x的每一列相对于其余列的线性依赖性。为此,设xj为xjon由其他向量跨越的子空间的投影,设εj=xj-xj,然后(~x~x)-1jj=1/kεjk。由于处理仍然是正交的,其相关性度量将保持大致不变。从尺度上看,当n=200和cb=4时,第一个分区块将标准误差增加约0.25%,n/cb块将标准误差增加0.34%。对于n=400的样本,该值分别为0.13%和0.14%。因此,使估计值的标准误差最小化的分区可以比使估计值的MSE最小化的分区具有更少的块。

地板
能者818 在职认证  发表于 2022-4-16 10:39:22
如果将影响标准误差最小化的分区中的任何块的大小至少为2cb,那么将其拆分将提高估计的MSE。如果实验者期望跨特定变量进行子组分析以寻找异构性,则可能会出现分块的额外动机。在这种情况下,实验者将选择具有现有分区(可能是网格)的~x变量进行分析。例如,在最简单的情况下,所有~x个变量可以按其中值拆分,创建2~xinitial块。在第2.3节和第2.4节中,我们建议在事前子组分析计划引发阻塞时,对本文的程序进行小的调整。鉴于两个目标(减少估计的MSE和标准误差)可能会有所不同,我们必须决定一个总体策略。考虑到两个目标之间的权重,事后可以在候选分区中进行最佳选择,但事前要困难得多。当数据可用时(请参见第2.6.2节)将如何处理,但通常这些数据是不可用的,或者可以更好地使用这些数据。因此,我们提出了一个简单合理的方法,试图在不明确优化这两个目标的情况下平衡它们。我们创建分区的一个层次(将在下面讨论),并找到其拟合的结果模型(将y拟合到块变量)具有最佳预期样本外精度的分区。这在一定程度上自然地限制了分区的复杂性,因为在构建预测模型时,过于细粒度的分区将过度适合其训练数据,并执行严重的样本外(例如,每个观察都有一个块的分区显然已经超出了寻找通用模式的范围,而是记住了当前样本的特性)。这种策略,估计模型的样本外性能,可以通过一个叫做交叉验证的过程有效地使用相同的数据(下面讨论)。阻塞值随着样本大小而减小。随着样本量的增加,治疗和预后因素之间的有限样本相关性降低。因此,对估计的MSE的关注就变得不那么重要了。对于统计效率,通常认为在较大样本中的阻塞不太重要(Kernan,1999),但这将更多地取决于数据的性质。总体而言,许多临床三位专家认为,对于超过400个样本,阻断并不重要(Kernan,1999)。然而,我们的观点是,如果可以使处理变得容易,那么在许多样本规模下,好处可能大于代价。我们首先关注至少有两个前期数据值t∈{pre1,pre2}的情况,因为这是模型的最干净的设置。这两种策略都将对Ypre2和[X,ypre1]之间的关系进行建模,以形成分区,我们将展示如何在它们之间使用样例外方法。在决定使用哪种策略后,考虑到可能存在一些时间依赖性,我们继续通过使用[X,ypre2]而不是[X,ypre1]时使用选定的模型生成分区来进行估计。2.2标准ML方法在详细介绍ML方法之前,我们首先讨论与经济学中使用的更常见方法的一般差异。ML模型通常具有超参数,这通常控制模型的总体复杂性。许多ML方法的一个好处是它们可以是quitecomplex,但是过多地增加它们的复杂性可能意味着它们过度适应sampledata,基本上记住了当前样本的特性,并且在离开样本时表现不佳。因此,实验者和实践者开发了程序来调节模型的复杂性和限制过拟合。主要的过程是交叉验证(CV),它模拟样本外误差。

7
可人4 在职认证  发表于 2022-4-16 10:39:28
CV随机地将数据分成K个“折叠”(通常为5或10个)。使用一个模型对每个观察进行样本外预测,该模型对所有数据进行训练,但对该观察的折叠进行训练(因此有K个单独训练的子模型)。我们列出了三个常见的ML任务,并为每个任务确定了一个常见的、简单的、可以现成使用的方法:o分区:这个任务是创建一个分区π,包含单元格`,从特征空间x,到复杂程度可变。构建分区时的目标是覆盖每个块的虚拟变量集最大化它们对y的预测能力(即,每个块的预测值是该块的平均结果)。寻找全局最优分区计算量太大,因此最常用的方法(Hastie et al.,2009)是分类和回归树(Cart,Breiman1993)。Cart从整个特征空间作为一个块开始,并递归地将每个块分成两个直线切割。为了拆分一个块,它搜索该块中的每个维度和可能的值,并找到减少两个子块结果的总体MSE的拆分。直觉上,它发现了一个分裂,这样双方有非常不同的平均结果。主要的超参数是树深度(我们通过CV选择)和最小树叶大小(我们设置为cB)o特征选择:在这个任务中,我们有一个通用的结果y和特征X,我们希望找到对确定y最重要的子集X*。最常见的方法(Taddy,2019)是最小绝对收缩和选择算子(Lasso,Tibshirani,1996)。Lasso是一个线性模型,它在OLS目标函数中增加了对系数L范数的惩罚,求解minβy-xβ+λβ。由于Lpenalization的几何形状,Lassosolution通常将许多系数设置为精确为零。如果真DGP对于非零系数是稀疏的,那么在一定条件下Lasso可以达到oracle性质,并且在选择真子集的时间上是一致的(Zou,2006)。我们突出三个用法说明。首先,由于系数的绝对大小都是惩罚的,我们典型地将所有特征归一化,使其具有标准的均值和方差。其次,由于这是一个线性模型,相互作用者非线性地影响结果的变量可能没有被选择。为了帮助解决这个问题,一个常见的做法是用常见的转换来增加X。第三,我们将遵循惯例,使用CV设置λ超参数。--一个常见的子任务是识别所选变量的重要性权重{wk}。由于正则化导致套索系数有偏差,可以通过对套索选择的特征执行后续OLS(Belloni and Chernozhukov,2013年的后套索)并取系数的绝对值来构造预测权重。o预测:在这个任务中,我们希望在面对潜在的非线性时形成鲁棒的预测,学习y≈g(X)。这项任务有许多选项,但在大多数统计数据(即,不是视觉或文本数据)应用程序中,随机森林(Breiman,2001)是常见的、简单的,并且性能良好(Taddy,2019)。随机森林是大量独立树模型(通常是Cart)的平均值。每一棵树都是训练的,但另一个选择是“1SE”规则(Friedman et al.,2010),这是最简单的模型,其MSE不超过最小值的一个标准误差。

8
可人4 在职认证  发表于 2022-4-16 10:39:34
如果有充分的理由相信Model将与来自不同分布的新数据一起使用,则通常使用这种方法。上面介绍的分区方法也可以用作非线性变量选择过程,即生成一个分区,然后选择至少一次用于拆分的变量。使用多种变量,然而,决策树的性能受到影响(Hastie等人,2009)所以尤其是在这些情况下,套索是更好的。我们注意到对于套索,一些关于设置λ的插件估计具有吸引人的理论性质(Belloni et al.,对于更复杂的方法,可以在每次忽略一个协变量的情况下重新运行模型,并使用结果的MSE的增加作为重要的度量。对原始数据进行轻微修改(数据被引导,然后在每个分裂决策中选择随机数的特征作为分裂的候选),以产生不同的树,增加平滑性和鲁棒性。我们注意到,虽然我们为每个目的选择了流行的、广泛可用的和简单的方法,但也有替代方案(例如,最佳子集代替套索,增强树代替随机森林)。如果有数据或计算上的理由来选择一个替代方案,那就应该由实验者来探索。以上可以被认为是操作以下算法的默认选择。在对算法的描述中,我们将使用generictask的名称--分区、特征选择或预测--而不是任何特定的方法。最后,与大多数ML方法一样,这里提到的那些方法即使在特征比观察更多的情况下也可以发挥作用。因此,它们在这样的环境中非常有用,尽管样本大小很大,但我们仍然有关于个人的丰富数据。2.3策略:变量选择(VS)如上所述,我们可以最初使用专用的特征选择方法或直接使用分区算法。选择将取决于协变量的个数K和实验者对DGP中协变量稀疏性的先验。如果K相对较小,那么可以直接在变量上使用分区算法来创建块。如果K值相对较大,则划分算法的性能往往会受到影响。在这种情况下,特别是如果实验者的先验是只有稀疏的变量子集对预测结果有影响,我们可以使用初步的特征选择方法。注意,除了标准变量之外,我们还可以预先生成YPRE1(YPRE1≈gpre1P S(X)的预测模型)并包括它。它的加入可能会提高性能,并将此策略集中在缓解由模型错误规范和动态DGP引起的问题上。如果X中存在与YPRE1弱相关的协变量的长尾,因此可以在YPRE1中紧凑地表示,则性能将得到改善。只要YPRE1从X中捕获解释DGP静态成分的信息,就会导致对动态DGPs问题的取向,这意味着当YPRE1包括在模型中时,从X中选择的协变量将是那些其影响可能随时间而变化的协变量。简而言之,如果选择了YPRE1,这是持久性的证据(未指定的变量),如果选择了X中的一些,那么这是动态DGP的证据。在某些情况下,出于可解释性和可信性的原因,阻止真实变量(即使是由模型选择的)可能比使用YPRE1这样的综合特征更好。使用这样的综合度量可能会导致不直观的组(尽管有相似的预后评分,但有非常不同的协变量)。

9
大多数88 在职认证  发表于 2022-4-16 10:39:40
匹配文献(King and Nielsen,2016)在倾向-得分匹配的背景下也提出了类似的担忧。如果需要可解释的块,那么实验者可能更愿意将YPRE1排除在可变选择策略之外。完整的细节在算法1中。与现有的手工过程相比,该算法有多种优势:1。该算法具有在ypre1、地理变量和其他特征之间进行选择的通用方法。它还侧重于联合环境中的预测能力,而不是使用二元相关性。虽然该特征选择方法不是联合选择阻塞变量和划分,但它有一个自动停止规则(交叉验证λ)来限制所选择的阻塞变量集。一般来说,基于树的分区比网格分区更好,因为它可以增加粒度,同时适应协变量空间中密集和稀疏的区域。从技术上来说,最小块大小只用于pre2数据,但对于算法1变量选择块策略来说,块可以变得更小:ypre1、ypre2和X.1。估计一个预测模型YPRE1≈gpre1P S(X)并生成YPRE1。定义M={ypre1,ypre1,X}。估计一个预测模型YPRE2≈gpre2P S(X)并生成YPRE2.3。如果K很大(或者假设稀疏):使用特征选择方法预测Ypre2usingm。将M重新定义为选定的特征集。(如果下游任务需要,返回重要性权重)。使用M执行分区(使用CV树深度)预测ypre2,产生分区π.5。根据更新的数据分配块:b=π(ypre2,ypre2,X)。确保分区没有用更新的数据创建比CBS小的块(如果是,修剪树的复杂度,直到满足这个约束)。返回:B3。由于分区算法确保了对更细的分区有预期的好处,所以我们必须平衡增加粒度和下游自由度调整之间的权衡。如果实验者不确定是否使用算法1中的初始变量选择方法,可以创建变量选择策略的两个版本,并使用第2.5节中的过程来决定它们之间的关系。如果实验者为了执行APRE指定的子组分析而进行分块,那么我们建议对算法1进行以下修改:在划分步骤中,我们从2.1节中描述的现有分区~π开始,并从该点递归地划分单元。如果实验者使用的是一个初始特征选择,那么该过程应该被限制为只允许在选定的维度上进行新的分裂。(自适应网格替代方案)由Cart创建的分区将空间细分为超矩形,但分区仍可能相当不规则,难以理解。如果分区本身需要是可理解的,那么另一种选择是使用adaptivegrid分区。这个网格可以通过在分位数上划分(可能时)协变量来构建。因此,在更重要的变量上会有更多的块。因此,尝试使跨变量的块数大致与它们的重要性权重成正比。总体粒度是一个超参数,可以通过CV设置(并假设最小块大小为cB)。用于实验的块通常包含奇数个单位,从而防止处理在块中的完美均匀分布。其中一个单元(通常是随机的)被排除并标记为“不适应”,其余的是跨治疗的随机事件。如果块只跨越一个维度,那么我们可以按顺序迭代这些块,并将不匹配的处理分配给交替的处理,从而确保不匹配的处理分配在分布上也是均匀的,如果块只跨越一个维度,那么我们可以将不匹配的处理分配给交替的处理。然而,如果块跨越多个维度,则没有简单的解决方案。

10
可人4 在职认证  发表于 2022-4-16 10:39:46
(如果不匹配物本身形成一个矩形晶格,那么这是可能的,但这是极不可能的)。在这种情况下,实践是不同的,非随机解决方案通常是缓慢和近似的。任何渐进划分方法的一种方法是只查看更高、更粗的划分级别中的不匹配单元,并在这个更高的级别上重新进行阻塞。使用Cart,只需按顺序遍历树叶,并为pre1数据分配不合适的位置,就可以轻松地完成这项工作。在实践中,典型的决策树的最小节点叶大小为6左右,这样就不能从很小的样本中估计均值。因此,这种变异不太可能是有帮助的。交替治疗。随后的不匹配将来自原始分区的相同部分,因此将位于更高级别的相同单元格中。(特征学习)在ML中,与特征选择相关的任务是特征学习,它侧重于生成(通常是一小组)合成特征,这些合成特征是原始特征的转换组合,可以在下游估计中比原始特征表现得更好。这是许多实验者已经手动完成的任务(例如,构建复合索引、平均值和现有特征的对数/多项式转换),但特征学习以自动化的方式执行这一任务。学习到的特征通常使用神经网络来构造(辛顿和Salakhutdinov,2006)。对特征学习的理论和应用的全面讨论超出了本文的范围,因此我们注意到特征学习可能有用的情况。在这种情况下,FPSP不会表现得最好(真实的DGP很难近似,或者DGP是动态的),但VS的表现并不像预期的那样好(例如,因为有toomany变量要选择,所以一些组合是有帮助的)。我们注意到,由于过程必须学习额外的转换集,该任务通常需要更大的样本量,这可能会限制其有用性。据我们所知,特征学习尚未应用于实验性阻滞。2.4策略:未来预后评分(FPS)我们通过一个预测模型来构建未来预后评分(FPS),该模型近似于EYPRE2≈gF P S(X,ypre1)。(1)注意,这与Barrios(2014)andAufenanger(2017)的简单预后评分模型不同,因为它向前看了一步,并纳入了过去的结果值。这确保了该策略使用与变量选择策略相同的数据。使用过去的结果值,FPS现在可以处理结果持久性,尽管由于它将atch-space折叠为单个索引,它不能处理动态DGP。我们还必须考虑到我们的模型可能被错误描述的事实。与上面一样,使用更新的特征gf P S(X,ypre2)对预测值进行分块。现有的标准方法,我们称之为顺序分配,是根据单元的FPS排列单元,生成大小为CB的组。可以使组更大,以合并具有相同预测值的单元段。这确保了只有在(在样例中)预测性能有好处时才创建额外的块。这可能会产生奇数大小的细胞,但在这种方法中,不适应不是一个问题,因为我们可以通过按顺序迭代不适应并交替分配治疗来确保治疗臂在预后评分范围内的均匀分布。在由apre-planned亚组分析驱动的阻断情况下,实验者应该从2.1节中描述的现有分区~π开始,按每个块的FPS排列单元,并从该点开始进行分区(确保没有大小低于cB的细胞)。备注4。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-22 21:12