楼主: 大多数88
2143 42

[量化金融] 具有潜在多个控制的半参数差分 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

67%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
70.8997
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
23294 点
帖子
3809
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
大多数88 在职认证  发表于 2022-6-11 08:17:49 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Semiparametric Difference-in-Differences with Potentially Many Control
  Variables》
---
作者:
Neng-Chieh Chang
---
最新提交年份:
2019
---
英文摘要:
  This paper discusses difference-in-differences (DID) estimation when there exist many control variables, potentially more than the sample size. In this case, traditional estimation methods, which require a limited number of variables, do not work. One may consider using statistical or machine learning (ML) methods. However, by the well-known theory of inference of ML methods proposed in Chernozhukov et al. (2018), directly applying ML methods to the conventional semiparametric DID estimators will cause significant bias and make these DID estimators fail to be sqrt{N}-consistent. This article proposes three new DID estimators for three different data structures, which are able to shrink the bias and achieve sqrt{N}-consistency and asymptotic normality with mean zero when applying ML methods. This leads to straightforward inferential procedures. In addition, I show that these new estimators have the small bias property (SBP), meaning that their bias will converge to zero faster than the pointwise bias of the nonparametric estimator on which it is based.
---
中文摘要:
本文讨论了当存在多个控制变量时,可能超过样本量的差异(DID)估计。在这种情况下,需要有限数量变量的传统估计方法不起作用。可以考虑使用统计或机器学习(ML)方法。然而,根据Chernozhukov et al.(2018)提出的ML方法推理的著名理论,将ML方法直接应用于传统的半参数DID估计量将导致显著偏差,并使这些DID估计量无法与sqrt{N}一致。本文针对三种不同的数据结构提出了三种新的DID估计量,它们在应用ML方法时能够缩小偏差并实现sqrt{N}一致性和均值为零的渐近正态性。这导致了直接的推理程序。此外,我还证明了这些新的估计量具有小偏差特性(SBP),这意味着它们的偏差将比它所基于的非参数估计量的逐点偏差更快地收敛到零。
---
分类信息:

一级分类:Economics        经济学
二级分类:General Economics        一般经济学
分类描述:General methodological, applied, and empirical contributions to economics.
对经济学的一般方法、应用和经验贡献。
--
一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:半参数 econometrics Quantitative Contribution Conventional

沙发
kedemingshi 在职认证  发表于 2022-6-11 08:17:55
半参数差异与潜在的许多控制变量之间的差异Neng Chieh Chang*摘要本文讨论了当存在许多控制变量时,差异(DID)估计中的差异,可能超过样本量。在这种情况下,需要有限数量变量的传统估计方法不起作用。可以考虑使用statisticalor机器学习(ML)方法。然而,根据Chernozhukov等人(2018)提出的著名的MLmethods推断理论,将ML方法直接应用于传统的半参数DID估计量将导致显著的偏差,并使这些DID估计量最终成为√N-一致。本文针对三种不同的数据结构提出了三种新的DID估计量,它们能够缩小偏差并实现√应用ML方法时,平均值为零的N-一致性和渐近正态性。这导致了直接的推理过程。此外,我还证明了这些新的估计量具有小偏差特性(SBP),这意味着它们的偏差将比它所基于的非参数估计量的逐点偏差更快地收敛到零。关键词:差异中的差异、因果推理、高维数据、奈米·诺森戈性、,√N-一致性,Undermoothingjel分类:C13,C141简介在经验经济学中,差异差异(DID)估计器被广泛用于评估自然实验对治疗组和未治疗组的因果影响*加利福尼亚大学洛杉矶分校经济系,315 Portola Plaza,Los Angeles,CA 90095,USA。电子邮件:nengchiehchang@g.ucla.edugroup.通过比较治疗组和未治疗组之间结果变量随时间的变化,DID估计器可用于计算治疗对结果变量的影响。

藤椅
mingdashike22 在职认证  发表于 2022-6-11 08:17:58
DID的应用包括但不限于研究移民对劳动力市场的影响(Card,1990年)、最低工资法对工资的影响(Card&Krueger,1994年)、关税自由化对腐败的影响(Sequeira,2016年)、家庭收入对儿童个性的影响(Akee、Copeland、Costello和Simeonova,2018年),以及公司税对工资的影响(Fuest、Peichl和Siegloch,2018)。传统的线性DID估计值依赖于平行趋势假设,即在没有治疗的情况下,治疗组和未治疗组之间的结果差异在一段时间内保持不变。然而,在许多情况下,这一假设可能不成立,因为可能存在与结果变化相关的其他个体特征。只有在控制了这些特征后,才能将治疗视为外源性治疗。为了解决这个问题,Abadie(2005)提出了半参数DID估计量。与传统的linearDID估计相比,Abadie估计的优点有三倍。首先,对特征进行非参数处理,以避免因功能规格引起的任何估计误差。第二,治疗效果允许在个体之间变化,而传统的linearDID估计器不允许这种异质性。第三,inAbadie(2005)提出的评估框架允许研究人员评估治疗效果如何随特征变化而变化。本文是Abadie(2005)的扩展。Abadie(2005)考虑了必须限制控制变量数量的情况。当有丰富的数据集时,实证研究人员会遇到一个实际困难,即选择要包含哪些变量。

板凳
能者818 在职认证  发表于 2022-6-11 08:18:00
虽然经济直觉可以帮助我们缩小选择范围,但它不会完全选择所有重要变量。这个变量选择问题可能导致在实践中遗漏变量的机会。在本文中,我考虑了具有许多控制变量的DID估计,可能比样本大小更大。需要固定数量变量的经典估计方法在这种情况下不起作用。必须考虑使用ML方法,如Lasso、Logit Lasso、随机森林、增强树或各种杂交。然而,根据Chernozhukov等人(2018)提出的著名的ML方法推断理论,如果将ML方法直接应用于Abadie(2005)提出的传统半参数DID估计量,结果将导致严重偏差和无效推断。特别是,ML方法中嵌入的正则化偏差将导致传统的半参数DID估计无法√N-一致。我提出了三种不同数据结构的三种新的DID估计值:重复结果、重复横截面和多水平治疗,为文献做出了贡献。这些新的估计可以减轻ML方法正则化偏差的影响,并实现√N-稠度。关键是找到Abadie(2005)估计的所谓内曼正交分数(Chernozhukov等人,2018)。内曼正交分数是一个确定感兴趣参数的函数,其对干扰参数的导数为零。该特性有助于我们消除ML方法引起的一阶偏差,从而只保留二阶偏差,这比传统半参数估计中的一阶偏差小得多,更容易控制。使用Chernozhukov等人的交叉拟合算法。

报纸
何人来此 在职认证  发表于 2022-6-11 08:18:04
(2018),我证明新的DID估计值可以√当使用ML方法时,N-一致且渐近正态。图1显示了蒙特卡罗模拟,说明了将ML方法与Abadie估计量直接结合的负面影响以及使用新提出的DID估计量的好处。图1:真实值为θ=3,样本量N=200,控制变量数量p=300。左面板是Abadie(2005)中提出的传统半参数DID估计量的行为,其中我使用Logit-Lasso估计倾向得分。直方图表明,传统半参数DID估计的模拟分布是有偏差的。右面板是本文提出的新DIDestimator的行为,它由Neyman正交得分和交叉拟合构建。利用Logit-Lasso和random-forests估计回归参数。新估计量的模拟分布集中于真值和正态分布。请注意,两个面板的模拟数据完全相同,第4节介绍了模拟设置。第二个贡献与Abadie(2005)中考虑的控制变量数量有限的传统半参数DID估计有关。在这种情况下,传统的半参数DID估计能够实现√使用核估计的N-一致性,但它们需要欠光滑。欠光滑是一种条件,要求核估计量的点态偏差比点态标准差更快地收敛到零。如果研究人员使用标准的数据驱动方法,如交叉验证(CV)来选择核估计量的带宽,则会违反此条件,因为这些方法不会不平滑。在本文中,我证明了新的估计不需要欠光滑来实现√不一致性。

地板
可人4 在职认证  发表于 2022-6-11 08:18:07
具体而言,我将证明新估计量具有小偏差性质(SBP),例如Newey、Hsieh和Robins(2004),这意味着新估计量的偏差将比其所基于的非参数估计量的点偏差更快地收敛到零。如Chernozhukov、Escanciano、Ichimura和Newey(2016)所示,BP是一个有效的条件,可以消除欠光滑要求。图2显示了巴迪估值器和新估值器的蒙特卡罗模拟结果,其带宽由CV选择。我们可以观察到,Abadie的估计是有偏差的,因为CV不欠光滑,新提出的估计可以纠正这种偏差。图2:真值为θ=3。第一阶段的核估计量是使用标准的Gaussiankernel构造的,带宽由CV选择。两种估计器的模拟数据完全相同,第4节给出了模拟设置。作为一个实证例子,我利用2006年和2014年南非和莫桑比克之间的贸易数据研究了降低关税对腐败行为的影响。处理方法是2008年某些商品的关税大幅下降。Sequeira(2016)先前使用传统的线性DID估计量对该自然实验进行了研究。我将我提出的半参数DID估计量和Abadie(2005)的半参数DID估计量应用于相同的数据集(Sequeira(2016)的表9)。与Sequeira(2016)相比,塔里效率的降低将减少腐败行为,这两个半参数估计值一致表明,这种影响实际上大大大于Sequeira(2016)之前报告的影响。这种差异的一个潜在解释是,真实的数据生成过程违反了传统线性DID估计中的线性规范。

7
kedemingshi 在职认证  发表于 2022-6-11 08:18:10
此外,与Abadie(2005)的估值器相比,我提出的估值器表明,影响更大。本文提出的新估计量在很大程度上依赖于最近的高维andML文献:Belloni,Chen,Chernozhukov,&Hansen(2012),Belloni,Chernozhukov,&Hansen(2014),Chernozhukov,Hansen,&Spindler(2015),Belloni,Chernozhukov,Fernández Val,&Hansen(2017),Chernozhukov等人(2018);以及半参数估计中SBP的文献:Newey、Hsieh和Robins(1998、2004)和Chernozhukov、Escanciano、Ichimura和Newey(2016)。论文的计划。第2节描述了传统的半参数DID估计,并讨论了它们在应用ML方法时的局限性。第3节介绍了新的DID估计量,并讨论了它们的理论性质。第4节进行蒙特卡罗模拟,以了解拟议估计器的有限样本性能。第5节提供了一个应用程序,第6节总结了本文。2传统的半参数DID估计量let Yi(t)是个体i在时间t和Di(t)的兴趣结果∈ {0,1}治疗状态。在治疗前t=0和治疗后t=1期间观察人群。使用潜在结果符号(Rubin,1974),我们得到Yi(t)=Yi(t)+Yi(t)- Yi(t)Di(t),其中Yi(t)是个体在没有治疗的情况下在时间t时获得的结果,Yi(t)代表个体在暴露于治疗的情况下在时间t时获得的结果。由于个体仅在t=1时接受治疗,因此所有i的Di(0)=0。为了减少符号,我定义Di:=Di(1)。

8
mingdashike22 在职认证  发表于 2022-6-11 08:18:13
还有,让Xi∈ Rdbe是一个控制变量向量,其维数d可能大于样本量N。传统的线性DID估计量是以下线性模型中的参数αi(t)=u+Xiπ(t)+τ·Di+δ·t+α·Di(t)+εi(t),其中εi(t)是一个平均值为零的外生冲击,(u,π(t),τ,δ)是相应的参数。显然,这里假设的线性规格是一个强有力的假设,因为truedata生成过程可能是非线性的。此外,Meyer、Viscusi和Durbin(1995)注意到,如果治疗对人群中的不同群体有不同的影响,那么以这种线性形式包含控制变量可能是不合适的。为了解决这些问题,Abadie(2005)提出了半参数DID估计器,该估计器可以识别平均治疗对治疗(ATT)θ的影响:=e易(1)- Yi(1)| Di=1.根据数据,有三种特殊情况。案例1:重复结果的随机样本考虑到研究人员可以对每个感兴趣的个体观察治疗前后的结果。也就是说,研究人员观察到{Yi(0),Yi(1),Di,Xi}Ni=1。在这种情况下,可根据以下假设确定ATT(Abadie,2005):假设2.1。E易(1)- Yi(0)| Xi,Di=1= E易(1)- Yi(0)| Xi,Di=0.假设2.2。P(Di=1)>0,概率为1 P(Di=1 | Xi)<1。假设(2.1)是条件平行趋势假设。它指出,根据个人特征,在没有治疗的情况下,治疗组和未治疗组的平均结果将遵循平行路径。根据这两个假设,ATT被确定为θ=E(Abadie,2005)易(1)- Yi(0)P(Di=1)Di- P(Di=1 | Xi)1- P(Di=1 | Xi).

9
能者818 在职认证  发表于 2022-6-11 08:18:16
(2.1)案例2:具有重复横截面软化时间的随机样本,研究人员可能无法观察同一个体的治疗前后结果。相反,他们观察重复的横截面数据集。如果观察结果属于治疗后样本,则让Tibea时间指示器取值1。研究人员观察{Yi,Di,Ti,Xi}Ni=1,其中Yi=Yi(0)+Ti(Yi(1)- Yi(0))。假设2.3。在T=0的条件下,数据为(Y(0),d,X)分布的i.i.d;在T=1的条件下,数据为(Y(1),d,X)分布的i.i.d。假设假设假设(2.1)-(2.3)成立,ATT被确定为θ=E(Abadie,2005)Ti公司- λλ(1 - λ) YiP(Di=1)Di- P(Di=1 | Xi)1- P(Di=1 | Xi), (2.2)式中λ:=P(Ti=1)。案例3:多层次治疗在许多情况下,个人可以接触不同水平的治疗。让W∈ {0,w,…,wJ}是治疗水平,其中w=0表示未治疗的个体。研究人员观察{Yi(0),Yi(1),Wi,Xi}Ni=1。对于w∈ {0,w,…,wJ}和t∈ {0,1},设Yw(t)为治疗水平wat period t的潜在结果。用θw表示每个治疗水平w的ATT:=EYw(1)- Y(1)| W=W.假设假设假设(2.1)和(2.2)适用于每个治疗水平:E易(1)- Yi(0)| Xi,Wi=w= E易(1)- Yi(0)| Xi,Wi=0对于w∈ {w,…,wJ}和P(Wi=w)>0,并且w的概率为1 P(Wi=w | Xi)<1∈{w,…,wJ}。然后我们有(Abadie,2005)θw=EY(1)- Y(0)P(W=W)I(W=W)·P(W=0 | X)- I(W=0)·P(W=W | X)P(W=0 | X), (2.3)式中,I(·)是指示函数。让我们关注案例1,其中研究人员面临重复结果数据。要使用识别结果(2.1),第一步是估计两个干扰参数:P(Di=1)=:和P(Di=1 | Xi)=:g(Xi)。

10
kedemingshi 在职认证  发表于 2022-6-11 08:18:20
pis的估计量仅为样本平均值^p=N-1PNi=1Di,而倾向得分是有限维的,需要非参数估计。用^g表示g的估计量,则基于方程(2.1)的插件估计量为^θ=NNXi=1Yi(1)- Yi(0)^pDi- ^g(Xi)1- ^g(Xi)。当使用经典的非参数方法(如核估计量或级数估计量)估计^g时,估计量^θ可以是√半参数估计文献(Newey,1994;Newey&McFadden,1994)中提供的某些条件下的N-一致和渐近正态性。然而,当^g是ML估计量时,估计量^θ将无法√N-一般一致。根据Chernozhukov等人(2018)提出的ML方法推断的一般理论,原因有两个:(1)基于(2.1)的得分函数,ν(W,θ,p,g):=Y(1)-Y(0)P(D=1)D-g(X)1-g(X)- θ、 具有关于倾向得分g的非零方向(Gateaux)导数:gE[Д(W,θ,p,g)][g- g] 6=0,其中第3节正式定义了方向(Gateaux)导数;(2) ML估计的收敛速度通常比N慢-1/2由于正则化偏差。类似地,通过将ML估计器直接插入(2.2)和(2.3)得到的估计器将不会√N-一般一致。第4节中的蒙特卡罗模拟支持这一理论观点,并且在第一阶段参数估计中使用ML估计时,基于(2.1)-(2.3)的估计量存在显著偏差。下一节将提出三个新的得分函数,以缓解第一阶段ML估计量的正则化偏差。这三个新的得分函数是在与Abadie(2005)相同的识别假设下推导出来的,因此没有进行额外的假设。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-6 07:55