楼主: mingdashike22
1596 31

[经济学] 多元随机森林估计的渐近正态性 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
74.0016
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24862 点
帖子
4109
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
mingdashike22 在职认证  发表于 2022-4-26 12:08:03 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Asymptotic Normality for Multivariate Random Forest Estimators》
---
作者:
Kevin Li
---
最新提交年份:
2021
---
英文摘要:
  Regression trees and random forests are popular and effective non-parametric estimators in practical applications. A recent paper by Athey and Wager shows that the random forest estimate at any point is asymptotically Gaussian; in this paper, we extend this result to the multivariate case and show that the vector of estimates at multiple points is jointly normal. Specifically, the covariance matrix of the limiting normal distribution is diagonal, so that the estimates at any two points are independent in sufficiently deep trees. Moreover, the off-diagonal term is bounded by quantities capturing how likely two points belong to the same partition of the resulting tree. Our results relies on certain a certain stability property when constructing splits, and we give examples of splitting rules for which this assumption is and is not satisfied. We test our proposed covariance bound and the associated coverage rates of confidence intervals in numerical simulations.
---
中文摘要:
回归树和随机林是实际应用中常用的有效非参数估计方法。Athey和Wager最近的一篇论文表明,任意点的随机森林估计都是渐近高斯的;在本文中,我们将这个结果推广到多元情况,并证明了多个点的估计向量是联合正态的。具体来说,极限正态分布的协方差矩阵是对角的,因此在足够深的树中,任意两点的估计都是独立的。此外,非对角项的范围是由捕捉两点属于结果树的同一分区的可能性的数量确定的。在构造分裂时,我们的结果依赖于一定的稳定性,并且我们给出了分裂规则的例子,对于这些规则,我们的假设是和不满足的。我们在数值模拟中测试了我们提出的协方差界和相关的置信区间覆盖率。
---
分类信息:

一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--

---
PDF下载:
--> Asymptotic_Normality_for_Multivariate_Random_Forest_Estimators.pdf (889 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:随机森林 econometrics Multivariate Applications distribution

沙发
mingdashike22 在职认证  发表于 2022-4-26 12:08:13
多元随机森林估计器的渐近正态性Technologykkli@mit.edu*2020年12月16日抽象分析。Athey和Wager最近的一篇论文表明,逐点随机森林估计是交感高斯的。在本文中,我们将他们的结果推广到多元情况,并证明在多个点上的估计向量是联合渐近正态的。具体来说,极限正态分布的协方差矩阵是对角的,因此在足够深的树中,任意两点的估计都是独立的。我们证明了o-对角项由与两个给定点属于结果树的同一片叶子的概率有关的量所限定。我们的结果依赖于基础树估计的某些稳定性,并且我们给出了一些分裂规则的例子。我们还提供了一个启发式和数值模拟来测量有限样本中的反对角线项的衰减。1简介树和随机森林是Breiman[]首次引入的非参数估计。Givena feature spaceX Rp和一组数据点{(Xi,Yi)} X×R,树估计器通过沿给定轴重复拆分X,将特征空间递归地划分为轴对齐的不重叠超矩形。树估计在测试点X的预测∈ 然后是一个包含X的超矩形中着陆的目标的集合;如果是连续的,则聚合为样本平均值,该树也称为回归树。树估计器的深度定义为到达终端超矩形前的最大分裂数,控制树估计器的复杂性。

藤椅
kedemingshi 在职认证  发表于 2022-4-26 12:08:19
有两种常用的方法来控制复杂性:“boosting”方法生长深度较大的树,然后通过修剪树(即,在非末端超矩形处进行预测)或引入decayfactor来降低复杂性;取而代之的是“套袋”方法在数据的不同子集上生长一组浅树,并对这些树进行平均,以进行最终预测。装袋的直觉是,生长在不同亚群上的树并不是完全相关的,因此聚集减少了变异和变异*我要感谢我的顾问阿尔贝托·阿巴迪和维克托·切尔诺朱科夫审阅了本文的多份草稿。此外,Sophie(Liyang)Sun、Ben Deaner、14.386班(2020年春季)研讨会的参与者以及麻省理工学院计量经济学午餐研讨会的参与者提供了非常有用的反馈。我还要感谢Stefan Wager教授帮助我理解随机森林模型中协方差估计的机制。当特征空间X不需要是矩形时,可以将X放大到一个矩形集合X,该集合定义为包含X的所有矩形集合的交点。arXiv:2012.03486v3[econ.EM]2021年1月30日平衡偏差-方差权衡。这种类型的估计器被称为随机森林,它们是本文的重点。自21世纪初引入随机森林以来,由于与竞争模型相比具有多种实用优势,随机森林已成为应用数据分析中越来越重要的工具。首先,高质量的随机林库随时可用,流行的实现可扩展到数百个分布式工作者[,]。此外,树估计器和随机林背后的核心算法足够简单,可以快速原型化定制实现,估计器不受特征异常值的影响,丢失的数据可能很容易合并。

板凳
nandehutu2022 在职认证  发表于 2022-4-26 12:08:25
首先,它们的结构自然地与大多数应用程序的空间位置一致:也就是说,与轴相关的潜在目标函数是连续的。最后,树模型是可解释的,具有明确的特征重要性概念[6,7],支持将其用作模型选择工具[8]。影响。在鲁宾的潜在结果框架[]中(见[]以了解概述),根据Whetheria接受治疗的情况,个体(0)Y(1)。统计员可以访问IID观测{Xi,Wi,Yi≤ 我≤ n} 谢维∈ {,}YiY(Wi)iinterest是xτ(x)处的治疗效果:- E(Y(1)- Y(0)|Xi=x)。(1) Y(0)iY(1)iτx假设。一个常见的假设是无依据性,即治疗状态取决于Y(1)和Y(0)是否取决于Xi。在这个假设下,τ(x)=E易Wie(x)-1.- Wi1- e(x)| Xi=x, 其中e(x)=P(Wi=1 | Xi=x)。(2) 在这里,关键函数ise(x)被称为倾向评分,是协变量亚群治疗的概率x;参见[]推导和含义。机器学习更重要的是,无依据性还意味着τ(x)=E(Y | W=1,x=x)- E(Y | W=0,X=X),(3),因此可以通过拟合两个模型来估计τ(X),一个是在W=1的样本子集上,另一个是在W=0上。有序的分类特征。外汇→ R(例如,为了测试零假设:f(x)=0)需要了解基本估计量^f(x)的收敛率或渐近分布,其中x是感兴趣的点。然而,目标函数的泛函通常也是令人感兴趣的:例如,两个不同亚群的处理效果(即f=τ)的差异由数量f(x)表示- f(\'x),(4)x'xin与加权处理效应有关,其中一个亚群xis被赋予一个重要权重,建模为密度u(x)。

报纸
何人来此 在职认证  发表于 2022-4-26 12:08:32
在这种情况下,f的相应函数为∈Xf(x)du,其中u不一定是x(5)的密度,并且积分在域x.ff(x)上,而且是不同点的估计值sf(x)和f(`x)之间的相关性。作为一个具体例子,考虑函数τ(x)和简单差τ(x)- τ(`x)。我们有τ(x)- τ(x)=[E(Y | W=1,x=x)- E(Y | W=1,X=\'X)]- [E(Y | W=0,X=X)- E(Y | W=0,X=\'X)]=:A- B.(6)Ab如上所述,wi=1和wi=0的数据集的两个“一半”。因此,估算值^A和^b是独立的,因此VaR(^A-^B)=Var^A+Var^B。然后,方差^A和^B取决于它们各自在x和^x处的随机森林估计的协方差。本文研究了一类随机森林模型的相关结构,其渐近分布在[]中首次得到。我们找到了充分的条件,在此条件下,不同点的随机森林估计的渐近协方差相对于各自的方差消失;此外,我们还提供了基于计算的有限样本启发法。据我们所知,这是关于随机森林估计器相关结构的第一组结果。本文基于并扩展了[]中的结果,后者又基于Related,后者通过结合矩条件的知识,将本文考虑的随机森林模型扩展到更广泛的目标函数类。本文建立的稳定性结果已出现在[],他们研究了随机森林和逻辑回归的算法稳定性概念,并得出了推广误差保证。与本文密切相关的还有[]和【】在这种背景下,我们的论文为将有限样本统计理论应用于随机森林提供了一个垫脚石,其中协方差矩阵的边界起着核心作用。本文的结构如下。

地板
mingdashike22 在职认证  发表于 2022-4-26 12:08:40
在第2节中,我们介绍了随机森林模型,并陈述了我们的结果所需的假设;第三部分是我们的主要理论贡献;第4节以第3节为基础,讨论了在有限样本设置中有用的启发式方法;第5节总结。所有证据见附录。2模型设置和假设2。1.树估计概述本文的目的是研究随机森林估计的渐近高斯逼近。自始至终,我们假设一个随机样本{Zi=(Xi,Yi):1≤ 我≤ n} 给定X×Ris,其中每个xi是属于子集X的特征或协变量的向量 p-dimensionalYi的Rpof∈ rxix特征空间或特征域。给定数据集{Zi}ni=1,树估计器通过进行轴对齐拆分递归地划分特征空间。具体来说,轴对齐的拆分是一对(j,t),其中j∈ {,…,p}是分裂坐标,t∈ Ris分裂指数;给定一个子集 十、 分裂(j,t)分成左右两半{X∈ R:xj<t}和{x∈ R:xj>t},(7)xjjxX{Zi≤ 我≤ n} 例如,当目标为连续时,常用的选择是(j,t)=arg minj,~tXi:Xi∈L(易)- uL)+Xi:Xi∈R(易)- uR)(8)式中,L=L(~j,~t)和R=R(~j,~t)是由分割(~j,~t)得到的X的两半,其中uLanduR分别是对应特征Land inLandR的targets的平均值。xlrlr分别指通过使用满足特征sillcriterion的数据子集计算的分割forLis。当每个节点满足停止标准时,该过程完成;在它之前是一个超矩形与X的交点。这个序列以自然的方式响应一棵树;我们将在拆分过程中出现的半空间称为节点,以及最终分区终端节点的元素。根据(7),我们排除了点位于矩形“边”上的边情况。

7
何人来此 在职认证  发表于 2022-4-26 12:08:53
,n},内部期望用ξs<nasuming thats表示~ nβ对于某些β非常接近于1;具体地说,我们假设自始至终选择子样本大小是为了满足[]定理3的假设,因此目标函数x7的估计量→ E(Y | X=X)(见上文讨论)。为了与符号[]保持一致,我们将编写(x;Z,…,Zs)来表示(x;ξ,Z,…,Zs)对ξ的期望。有了这个符号,随机森林(atx)估计器(10)是带有大小核(Z,…,Zs)7的统计估计→ T(x,Z,…,Zs)。我们将在第3.2.3节模型假设的讨论中更详细地讨论RF的U统计表示。由于我们的结果将是[]中结果的延伸,我们将研究相同的随机森林模型,并采用一组类似的假设。关于树估计量的假设是有标准的(例如,参见[18]中的第7章和第9章)。第一个也是最定制的假设是,树算法是诚实的。直觉上,honestytree会在功能固定时进行估计。假设1。i分裂指数)独立于Xi。具体地说,我们需要使用(Yi | Xi,S)=dist(Yi | Xi),(11)iyis树算法。(由于独立观察,第二个等式是自动的。)有几种方法可以满足这个假设。第一种方法是仅根据特征计算分割。这排除了(8)中给出的示例拆分规则,因此我们可以使用其在特征空间(j,t)=arg minj,~tXi:Xi中的模拟∈LkXi- uLk+Xi:Xi∈RkXi- uRk,(12)其中uLanduRd表示每个半空间中xi的平均值(即质心)。在这种情况下,分割的选择本质上是一种聚类算法,它可以找到最佳分割。基于目标的计算分割是使用样本分割。

8
何人来此 在职认证  发表于 2022-4-26 12:08:59
数据被划分为两部分SIANDI;印度和印度的观察∈ Imay可以在拆分过程中自由使用,而Yi∈ i用于确定终端节点值。在这种情况下,需要(11)中的等式∈ 我{Wi}。在分裂阶段(“模型拟合”),分裂的计算就好像响应变量是WI;例如,(8)用uLandurb表示{Wi}的平均值。一旦树长满,预测(“模型推理”)就会像往常一样使用Yi的预测。在时间序列预测中,使用这种追踪目标的做法尤其流行,在拟合和推断步骤中使用不同的视界(c.f.,[21])。xit术语“推断”用于表示计算现有模型的预测,这与描述数据管道无关:参见[19,20]的文档。扩展到所有三个方案。我们的下一个假设将确保每一个轴都被选为分裂坐标,其概率从下到下是有界的。假设2。δ头,选择第一个坐标作为分割坐标;第二次,选择第二个坐标,以此类推,第J次硬币落地时,(p mod J)+第1个坐标基于观察结果。这是对[]中随机分裂假设的修正,其中在[]中研究并由[]等流行库实现的每个轴δpδpAnother方法都使用随机化每轮中可用分裂轴的数量。具体来说,泊松随机变量Q的强度与√首次实现的合格中介机构(每轮独立实现的合格中介机构)。然后,统一选择min(Q,p)多个轴作为该轮分裂的潜在候选轴。

9
何人来此 在职认证  发表于 2022-4-26 12:09:07
显然,这也导致了每个协调1被选择的概率的下限≤ J≤ p、 上述两种方法中的每一种都涉及两轮独立的随机化:第一轮是随机化,第二轮是确定分裂轴。直观地说,我们的循环分裂假设被简化了。重要的是,方差只取决于δ,而不取决于onp,我们将在证明中利用onp。假设3α,kα∈,/mαmthan 2k- 部分k得1分。该关键假设从[]继承而来,包含两个要求。第一个要求是,任何分割都不会产生包含太少观测值的半空间,即当通过观测值计数进行测量时,两个半空间都较大。如[]所示,这意味着在互补概率指数小的情况下,分裂轴收缩了一个介于α和1之间的因子- α、 所以这两个半空间在欧几里得体积上也很大(概率很高)。假设的后半部分对观测值的区间节点数设定了上限。在这种假设下生长的树必然会更深,因为[12]中的样本大小,在我们的边界中出现的常数可能会在方案2中发生变化。我们采用mJ mod J=0的约定,因此表示为(p mod J)加1。如果Q=0,该节点的拆分将停止。(因此,子样本大小=nβ)增加。特别是,叶节点处的预测平均观测值将是有限个项的平均值。一个重要的结果是,树估计的方差(在任何测试点X)有界于(c.f.,Var的分布假设(Y | X=X))。假设4(预先确定的分割)。每个节点上考虑的候选拆分不依赖于数据{Zi},因此它们会提前确定。

10
何人来此 在职认证  发表于 2022-4-26 12:09:14
此外,每个节点上的候选拆分数量是有限的,每个候选拆分都会将其拆分轴的长度缩短至mosta因子α。预先确定的拆分假设适用于我们的论文。考虑到每个节点都是数据独立的候选拆分“几乎”没有失去通用性,因为特征空间是固定的。例如,随机林的实现通常使用32位浮点数作为其拆分索引,因此该假设自动满足。此外,我们注意到,该假设允许候选拆分依赖于节点,因此拆分过程仍然是数据驱动的,因为通向节点的拆分序列依赖于观察结果。所有特征都是连续的,且x=[0,1]p,所有候选拆分的形式(j,k/m)为某些整数1≤ J≤ pand 0≤ k<m,其中m≥1是一个固定整数。如果一个分裂规则(8){bmXijc≤ 我≤ N≤ J≤ p} 而不是{Xij}。前一个集合的每个成员都是{,…,m中的整数-}因此可以用MBits来表示。特别是,对于2=256的网格分辨率,即使是iXibyte,也要有一个精细的网格。由于现代CPU和图形处理器以四或八字节存储浮点数,这允许大幅减少,允许计算能力扩展到更大的数据集。以这种方式进行编码的过程被称为量化,这是一个受支持的选项。乍一看,这似乎是限制性的,它使我们的模型与实践更紧密地一致。假设5(关于(X,Y)的DGP的分布假设)。该特性在单位立方上得到了支持,=[0,1]p密度远离零且不完整。此外,函数X7→ E(Y | X=X),x7→ E(Y | X=X)和X 7→ E(Y | X=X)是统一的| Xxi。e、 ,infx∈XVar(Y | X=X)>0。连续性和方差界假设是标准的。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-30 14:39