楼主: 何人来此
1978 41

[量化金融] 协变量中带有Berkson误差的回归——一种非参数方法 [推广有奖]

11
能者818 在职认证  发表于 2022-4-29 17:13:16
假设2。1让我们得到以下积分方程,将可观测变量的联合密度与不可观测变量的联合密度联系起来:fY,Z | X(y,Z | X)=ZfZ | X* (z | x)*)fY | X* (y | x)*)外汇*|X(X)*|x) dx*(3.3)式(3.1)直接遵循。解的唯一性如下所示。等式(3.3)定义了以下运算符等价关系:Fy;Z | X=FZ | X* Dy;十、*外汇*|十、 (3.4)BERKSON错误7我们引入了以下运算符:[Fy;Z | Xr](Z)=ZfY,Z | X(y,Z | X)r(X)dx,[FZ | X]* r] (z)=ZfZ | X* (z | x)*)r(x)*) dx*,[FZ | Xr](z)=ZfZ | X(z | X)r(X)dx,(3.5)[Dy;X*r] (十)*) = fY | X* (y | x)*)r(x)*),[FX*|Xr](x)*) =ZfX*|X(X)*|x) r(x)dx表示一些非常规则但其他任意的函数r。请注意,在上述定义中,y被视为一个参数(运算器不影响它),而Dy;十、*是对角矩阵的运算器等价物。接下来,我们注意到等价性FZ | X=FZ | X* 外汇*|Xalso持有[例如,通过(3.4)在所有y上的积分]∈ Y] 。然后我们可以隔离FX*|XFX*|X=F-1Z | X*FZ | X(3.6)并将结果代入(3.4),在重新排列后得到Fy;Z | XF-1Z | X=FZ | X* Dy;十、*F-1Z | X*,(3.7)在我们的假设下,可以证明所有逆项都存在于适当的域上。等式(3.7)表示,运算符Fy;Z | XF-1Z | Xadmitsa谱分解。待“对角化”的算子由可观测密度定义,而得到的特征值fY | X* (y | x)*)(包含在Dy中;X)*) 和本征函数fZ | X* (·| x)*) (包含在FZ | X中)* )提供未观察到的感兴趣的密度。我们还需要几个步骤来确保这种分解的唯一性,我们现在简要概述一下。

12
kedemingshi 在职认证  发表于 2022-4-29 17:13:19
我们需要(i)调用一个关于谱分解的强大的唯一性结果[Dunford and Schwartz(1971)中的定理XV 4.5],(ii)利用密度积分到一的事实,以扩展本征函数的规模,(iii)处理退化本征值,以及(iv)唯一地确定本征值和本征函数的顺序和索引。这最后一步,也许是最困难的一步,解决了fZ | X和* (·| x)*) 和fZ | X* (·| S(x)*)), 对于一些一对一的函数S,有同样有效的方法来表示本征函数,尽管它们会产生不同的算子FZ | X* . 为了解决这种模糊性,我们注意到对于任何可能的运算符FZ | X*令人满意的是(3.7),存在一个独特的对应运算符FX*|十、 通过方程(3.6)。然而,只有一种FZ | X选择*指向操作员FX*|XFX是谁的内核*|X(X)*|x) 满足假设2。2.8 S.M.Schennachthus,外汇*|X(X)*|x) ,fY|x*(y | x)*) 和fZ | X*(z | x)*) 是识别的,函数fZ、 fY、 f十、*, h和g可以通过扩展输入限制来恢复十、*, Y和dZ.最近提出了一种算子分解方法来解决某些类型的非经典测量误差问题[Hu和Schennach(2008)],但在排除Berkson型测量误差的假设下:应该强调的是,尽管使用了与Hu和Schennach(2008)(以下简称HS)类似的算子分解技术,对于许多原因,不可能简单地使用eir结果来确定此处考虑的Berkson测量误差模型。首先,关键条件(HS中的假设5)是,给定真正的回归器X,错误测量的回归器X的分布*是以X为中心的吗*对伯克森的错误没有任何影响。考虑一个简单的情况,伯克森测量误差是正常分布的,tru和MissemeasuredDegressor也是如此。

13
大多数88 在职认证  发表于 2022-4-29 17:13:24
给定X时X的分布*= 十、*是一个正常的中心atx*σx/(σx+σ)十、*). 因此,绝对没有合理的位置测量(平均值、模式、中值等)来产生适当的x中心*这在HS的假设5中是必要的。此外,在e上不能简单地取代给定X的X的中心假设*(如在HS中)以X为中心*给定X(对于Berkson误差是必需的),希望HS中的定理1仍然有效。HS利用了一个事实,即在条件密度中,条件变量(这里是X)中没有与变量变化相关的雅可比项*). 然而,有了Berkson误差,条件变量中不会发生相应的变量变化,必然会出现aJacobian项,这使得HS中使用的方法基本上不适用于Berkson情况。解决这个问题需要(i)使用不同于HS的算子分解,以及(ii)使用完全不同的方法“居中”被测变量。有人提出了另一个论点(在附录中形式化),该论点与HS中的定理1有更直接的联系,但在附加假设Z和X的情况下*有同样的尺寸。这种假设是相当严格的,因为它通常会导致h(·)是一对一(假设3.3)被违反的假设。例如,如果X*是标量,我们可以使用两种仪器,它们都不是E[Z | X*] 也不是E[Z | X*] 是严格单调的,那么h(·)对于我们单独使用的任何一种仪器来说都是n对1。然而,mappingX*7.→ (E[Z|X*], E[Z | X*]) 通常是e-to-one,但真正例外的情况除外。因此,考虑到X的尺寸*Z和Differis很重要。尽管如此,即使假设不存在这个问题,这种方法仍然需要一种不同的技术来将X居中*比在HS中使用的那个。

14
mingdashike22 在职认证  发表于 2022-4-29 17:13:27
有鉴于此,HS和当前的论文都依赖于算子谱分解作为传统卷积/反卷积Berkson误差9技术的替代方法,而且这些新技术似乎很可能在许多其他测量误差模型中得到应用。注意,我们的识别结果在参数和半参数环境中也很有用,因为它提供了在简单条件下,模型是识别的证据。在任何给定的参数模型中,我们的识别结果都会自动暗示需要在个案基础上进行识别的秩条件。此外,尽管X可以通过OUT随机分布,但考虑到X固定不会带来特别的困难,因为等式(3.1)在这种情况下提供了一个有效的条件似然函数。正如Schennach(2013)所讨论的,该方法的一些扩展是可能的:(i)放松X和X之间的独立性十、*为了考虑测量误差中的一些异方差性,以及(ii)结合经典误差和伯克森误差,在Mallick、Ho off man和Carroll(2002)、Carroll、Delaigle和Hall(2007)、Stram、Huberman和Wu(2002)以及Hyslop和I mbens(2001)中考虑了一种可能性。还可以证明,一些扩展是不合理的,例如假设测量方程(2.2)和仪器方程(2.3)都具有Berkson误差结构[Schennach(2013)]。估计。获得模型非参数估计量的一种自然方法是,将截断级数近似替换为(3.1)或(3.2)的每一个未知函数,并构造一个对数似然函数,使其在数值上相对于级数的所有系数最大化[e.g.,Shen(1997)]。

15
mingdashike22 在职认证  发表于 2022-4-29 17:13:31
这种基于筛子的估计器最近已经在各种测量误差问题中得到了应用[例如,Newey(2001)、Mahajan(2006)、Hu和Schennach(2008)、Carroll、Chen和Hu(2010)等]。下面,我们首先确定估算值,然后再确定其一致性。我们将回归函数g(·)和h(·)表示为^m(Km)(x)*, β(Km)m)=KmXk=1β(Km)m,kq(Km)k(x*) 对于m=g,h,(4.1),其中q(Km)k(x*) 是由k=1…索引的逐步增大的基函数集的某些序列(由截断参数skm索引),而β(Km)m=(β(Km)m,1,β(Km)m,K)是待测定系数的向量。q(Km)k(x)*) 例如,可以是幂级数、三角级数、正交多项式、小波或样条曲线。kand Km采用的双精度指数法有助于考虑样条曲线,在样条曲线中,改变节点数可以修改所有基函数。对于每个扰动的密度v=10 S.M.SCHENNACH,使用了基函数p(KV)k(v)(带截断参数KV)的类似展开式ZY十、*,^f(KV)V(V,θ(KV)V)=θ(KV)V,0φ(V/θ(KV)V,0)KVXk=1θ(KV)V,kp(KV)k(V),(4.2),其中θ(KV)V=(θ(KV)V,0,θ(KV)V,K)是要确定的系数向量,φ(·)是用户指定的“基线”函数。当密度的大致形状已知时,“基线”函数有助于减少表达式中所需的项数。它不是严格需要的,但是,d可以设置为1。不管怎样,该方法都是完全非参数的。一个方便的基础选择[见Gallant和Nychka(1987)]是取φ(·)为高斯伊安,p(KV)k(v)=vk-1对于任何KV。与函数g(·)和h(·)的一个重要区别是,必须对密度施加一些约束。

16
kedemingshi 在职认证  发表于 2022-4-29 17:13:35
需要一个约束来确保定心(假设2.2),KVXk=1θ(KV)V,kC(KV)V,c,k=0,其中,对于一些用户指定的函数cV(V),我们定义了(KV)V,c,k=ZcV(V)θ(KV)V,0φvθ(Kv)v,0p(KV)k(v)dv。例如,要对d扰动V施加零均值,让cV(V)=V。要施加零中值,让cV(V)=1(V)≤ 0) - 1/2,其中1(·)表示指示函数,而要施加零模,则设cV(v)=-δ(1)(v)(d eltafuncy导数,略带滥用符号)。需要另一个约束来确保非it总概率:PKVk=1θ(KV)V,kC(KV)V,1,k=1。注:在这两种类型的约束条件下,在未知系数下都具有线性的计算便利性。考虑到上述定义,我们可以根据样本(Xi,Yi,Zi)ni=1和方程(3.1)定义所有未知函数的估计量。[基于方程(3.2)的相应估计量可以单独导出]。设β(Kg)g,β(Kg)h,θ(KV)十、*,^θ(KV)Y、 ^θ(KV)Zdenote样本对数概率NNxi=1ln^fY,Z|X(Yi,Zi|Xi),(4.3),其中^fY,Z|X(y,Z|X)=R^f(K)Z)Z(Z)-^h(Kh)(x)*, β(Kh)h),θ(K)Z)Z) ^f(K)Y)Y(Y)-^g(Kg)(x)*, β(Kg)g),θ(K)Y)Y) ^f(K)十、*)十、*(十)*-x、 θ(K)十、*)十、*) dx*, 受试者toKVXk=1θ(KV)V,kC(KV)V,1,k=1和kvxk=1θ(KV)V,kC(KV)V,c,k=0(4.4)BERKSON误差11V=ZY十、*并受以下技术规范约束。估计量由^g(x)给出*) = ^g(Kg)(x)*;^β(Kg)g),^h(x*) =^h(Kg)(x)*;^β(Kg)h),(4.5)^fV(v)=^f(KV)v(v,^θ(KV)v)对于v=十、*, YZ.这类估计属于筛式非参数极大似然估计(MLE)的一个非常普遍的类别,其渐近理论在过去几年中受到了相当大的关注[e.g.,Grenander(1981),Gallant and Nychka(1987),Shen(1997)]。在这里,我们将Gallant和Nychka(1987年)以及Newey和Powell(2003年)的治疗进行对比,以确定上述程序的一致性。

17
可人4 在职认证  发表于 2022-4-29 17:13:38
虽然筛型估计器的一致性之前已经在一些高级假设下在非常一般的环境中建立,但我们的贡献是为本文所考虑的模型类的一致性提供了非常基本的条件。我们首先需要确定感兴趣的密度所在的集合。估计量一致性的形式证明要求这个集合是紧凑的,尽管这个要求在实践中似乎没有什么影响。本质上,紧凑性有助于排除与非常差的估计相关的非常极端但罕见的事件。这是一个标准的规则性条件;例如,参见Gallant and Nychka(1987年)、Newey and Powell(2003年)、Newey(2001年)。众所周知,n型有限维但紧凑的集合是通过L中的有界性和Lipschitz约束生成的集合∞空间在这里,我们使用加权Lipschitz约束,以允许在无界集上支持密度,同时仍保持紧致性(我们的处理方法可以直接适用于在有限区间上支持变量的简单情况)。继Gallantand Nychka(1987)之后,我们实施了一些限制措施,以避免对数可能性出现过快的差异。定义4.1。让kf k=supv∈R | f(v)|。让B明确并严格肯定。设f′+(v)是严格正的有界函数,它在| v |中衰减,关于v=0对称,这样r∞-∞f′+(v)dv<∞. LetS={f:R7→ [-B、 B]这样|λf(v)/vλ|≤ f′+(v)}。让f-(v) 和f+(v)是具有f的严格正有界函数-(v) 在| v | andR中减少∞-∞f+(v)dv<∞. 设F={F∈S:f-(五)≤ f(v)≤ f+(v)}。我们还为回归函数定义了合适的范数和集合f。在这里,我们需要考虑到函数在受控速率下发散到其参数的有限值。

18
大多数88 在职认证  发表于 2022-4-29 17:13:41
与任何现有的预期误差的全局测量类似,我们也使用了一个范数来降低尾部的误差,这与非参数12 S.M.Schennachression函数的尾部总是用更多的噪声来估计这一事实是一致的,因为那里的数据点较少。定义4.2。设ω:r7→ R+由一些给定的严格正、有界和可微的权重函数确定。对于任何函数g:r7→R、 设kg kω=kωgk,其中ωg(v)≡ g(v)ω(v)。设G={G:ωG∈ S和| g(v)|≤ g+(v)}其中g+(v)是一个给定的正函数,在| v |中,对称于v=0。我们现在可以说明所需的正则性条件。假设4.1。观察到的数据(Xi、Yi、Zi)是独立的,并且在i=1、2、。假设4.2。我们有f十、*, FY、 fZ∈ F和g,h∈G.假设4.3。可表示为级数(4.2)和(4.1)的函数集分别在F(范数k·k)和G(范数k·kω)中稠密。许多系列类型的密集度结果可在文献中随时获得[例如,Newey(1997)、Gallant和Nychka(1987)]。尽管这样的结果有时用均方型范数来表达,而不是这里使用的sup范数,Lemma4。下面的1【在Schennach(2013年)中得到证实】确定,在集合F和G中,均方标准中的密度意味着我们使用的标准中的密度。引理4.1。设{fn}是F.ThenR |fn(v)|dv中的一个序列→0意味着NK→0(定义4.1中的F和k·k)。我们还需要标准的有界性和支配条件。假设4.4。对于任何x∈ R、 R(ω(x)*))-1f+(x)*-x) dx*< ∞ 对于定义中的ω和f+。分别为2和4.1。假设4.5。

19
大多数88 在职认证  发表于 2022-4-29 17:13:46
存在b>0使得E[|ln(f-(X,Y,Z)|]<∞, f在哪里-(x,y,z)≡ 2bf-(b) f-(|y |+(g+(|x |+b)))f-(|z |+(g+(|x |+b))代表f-和定义中的g+一样4。分别为1和4.2。然后我们可以陈述我们的一致性结果[在Schennach(2013)中得到证明]:定理4.1。在假设下。1–4.5,如果KVp→ ∞, 对于V=h,g,十、*, YZ、 (4.5)中给出的估计量在(4.3)的最小值下根据(4.4)^f进行评估十、*,^fY、 ^fZ∈ F和^g,^h∈ G和满足假设4.4是这样的,k^G-G*kωp→0,k^h-H*kωp→0,k^f十、*-F*十、*金伯利进程→0,k^fY-F*Ykp→ 0,k^fZ-F*Zkp→0,其中初始量表示真值[即(3.1)的唯一解]。BERKSON误差13上述方法的实际实现需要在每个近似序列中选择kV项的数量。理论4。1允许数据驱动的千伏选择,因为千伏是随机的。为了选择KV,可以使用基于Kullback–Leibler(KL)标准的自举交叉验证模型选择方法,shownby van der Laan、Dudoit和Keles(2004),即使候选模型的数量随着样本量的增加而增加(因为它是h er e),也要保持一致。在该方法中,随机排除样本中的一部分p,剩余的1-p分数用于估计给定数量(K)的模型参数十、*, KY、 KZ、 Kg,Kh)对应系列中的术语。然后,使用排除分数p,在上一步中找到的估计参数值处,对可能性(或KL标准)进行评估。该过程重复多次,将样本随机分成不同的部分p和d(1-p) ,以获得方差非常小的平均KL准则(可根据每个随机分区的KL准则进行估计)。

20
nandehutu2022 在职认证  发表于 2022-4-29 17:13:48
本程序适用于(K)的各种试验选择十、*, KY、 KZ、 Kg,Kh),并选择产生最大可能性的选项。这种方法是渐近一致的(当样本为n时)→∞) 作为np→∞ 和p→在范德兰、杜多伊特和凯尔斯(2004)所述的一些温和的技术规范条件下。我们的非参数应用程序roach嵌套了参数和半参数模型。通过用合适的参数模型替换部分或全部非参数序列近似,可以很容易地实现这些子类。沿着Shen(1997)或Hu和Schennach(2008)的线,有可能获得收敛速度和极限分布结果,尽管由于空间限制,我们在这里没有这样做[说明适当的规律性条件,即使是以高级形式,也是相当复杂的,如Hu和Schennach(2008)的补充材料所示,其中涵盖了一个相关但不同的测量误差模型]。然而,重要的是要指出一个重要的属性。在非参数正则条件下,非参数筛的正则性和非参数筛的正则性是一致的;Shen(1997)的See定理4。这种最优性的概念是众所周知的参数极大似然效率的自然非参数推广。5.模拟研究。我们现在通过一个模拟例子来研究所提出的估计器的实际性能和可行性,这个例子被选为一个困难的例子。数据生成如下。X的分布是一个非if-orm分布[-1,1](意味着标准偏差为0.58)。我们认为6个自由度的厚尾t分布按0.5缩放为十、*.

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 02:58