楼主: nandehutu2022
1228 27

[量化金融] 无限方差下的基尼估计 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-6-1 02:30:22
在定理2相同的假设下,估计的基尼指数xGNP(Xn)=∑ni=1Z(i)∑ni=1 x满足以下分布极限nα-1αL(n)国民生产总值(Xn)-θud→ Q、 (11)式中,E(Zi)=θ,E(Xi)=u,L(n)是公式2中定义的相同缓变函数,Q是右偏α稳定随机变量S(α,1,u,0)。此外,统计数据∑ni=1Z(i)∑ni=1xi是吉尼指数的渐近一致估计量,即。∑ni=1Z(i)∑ni=1XiP→θu=g.对于带有α的肥尾∈ (1,2),定理3告诉我们,无论基础数据生成过程的分布如何,基尼估计量的渐近分布总是右偏的。因此,重尾数据不仅为基尼估计量引入了一个更厚的尾部极限,而且还改变了极限定律的形状,它完全偏离了通常的对称高斯分布。因此,基尼估计量,即仍然保证一致性的基尼估计量,将更缓慢地从下方接近其真实值。表1.3中已经给出了一些证据。极大似然估计定理3表明,在处理有限方差分布时,通常的基尼指数非参数估计不是最佳选择,因为其渐近极限的偏度和肥度。其目的是确定在厚尾条件下仍保持渐近正态性的估计量,这在非参数方法中是不可能的,因为它们都属于α-稳定中心极限定理的情况【13,14】。

12
能者818 在职认证  发表于 2022-6-1 02:30:25
因此,解决方案是使用参数技术。定理4表明,一旦确定了数据生成过程的参数族,就可以通过最大似然估计来估计基尼指数。得到的估计量不仅是渐近正态的,而且是渐近有效的。在定理4中,我们处理随机变量X,其分布属于大而灵活的指数族[26],即其密度可以表示为fθ(X)=h(X)e(η(θ)T(X)-A(θ)),带θ∈ R、 其中T(x),η(θ),h(x),A(θ)是已知的函数。定理4。让X~ Fθ使得Fθ是一个指数分布。然后,通过插入θ的最大似然估计量GML(Xn)θ得到的基尼指数是渐近正态且有效的。即:√n(GML(Xn)θ- gθ)d→ N(0,gθI-1(θ)),(12),其中gθ=dgθdθ,I(θ)是Fisher信息。证据这一结果很容易从指数族的极大似然估计的渐近有效性和线性方程的不变性原理得到。特别地,通过gθ相对于θ的连续性和单调性,证明了基尼指数不变性原理的有效性。然后,通过应用delta方法获得交感方差[26]。4、帕累托说明我们使用一些人工FATTAIL数据对获得的结果进行了说明。我们选择一个帕累托I[22],密度f(x)=αcαx-α-1,x≥ c、 (13)很容易验证,相应的生存函数F(x)属于具有尾部参数α和缓慢变化函数L(x)=cα的规则变化类。因此,我们可以应用第2节的结果来获得以下推论。推论1。让X。。。,Xnbe一系列i.i.d.观测值,具有带尾部参数α的帕累托分布∈ (1, 2).

13
可人4 在职认证  发表于 2022-6-1 02:30:28
非参数基尼估计具有以下极限:DNPn=GNP(Xn)- g级~ Sα、 1,C-ααnα-1α(α -1)α, 0. (14) 证明。在不丧失一般性的情况下,我们可以假设方程式(13)中的c=1。结果仅仅是定理3的应用,记住帕累托分布在α稳定随机变量的吸引域中,慢变函数L(x)=1。满足方程(37)的序列cnto变为Ccn=nαC-αα,因此我们有L(n)=C-αα,与n无关。此外,分布的平均值也是α的函数,即u=αα-1、推论2。让样本X。。。,Xnbe分布如推论1所示,假设GMLθ是定理4中定义的基尼指数的最大似然估计量。然后,由其真实平均值g重新标度的MLE-Gini估计量具有以下限制:DMLn=GMLα(Xn)- g级~ N0,4αn(2α- 1), (15) 其中N表示高斯分布。证据已知Giniindex的最大似然估计的函数形式为GMLθ=2αML-1[19].

14
mingdashike22 在职认证  发表于 2022-6-1 02:30:31
然后得出的结果是,帕累托分布(具有已知的最小值xm)属于指数族,因此满足了最大似然估计的渐近正态性和有效性所需的正则性条件。还要注意,帕累托分布的Fisher信息是α。现在我们已经计算出了这两个渐近分布,我们可以在处理帕累托数据时比较MLE和非参数估计的收敛质量,我们将其用作更一般类型的厚尾观测的原型。特别是,我们可以使用方程(14)和(15)来近似估算有限样本量下基尼指数真实值g的估计值偏差分布。图2显示了两种不同类型的估计量的平均值周围的偏差是如何分布的,以及这些分布如何随着观测数量的增加而变化。特别是为了便于比较-0.10-0.05 0.00 0.05 0.100 20 40 60 80 100 120 140α=1.8时的极限分布,MLE与非-平均值的参数偏差Llen=100n=500n=1000(a)α=1.8-0.15-0.10-0.05 0.00 0.05 0.10 0.150 20 40 60 80α=1.6时的极限分布,MLE与非-平均值的参数偏差Llen=100n=500n=1000(b)α=1.6-0.2-0.1 0.0 0.1 0.20 10 20 30 40 50α=1.4时的极限分布,MLE与非-平均值的参数偏差Llen=100n=500n=1000(c)α=1.4-0.3-0.2-0.1 0.0 0.1 0.20 5 10 15 20 25 30α=1.2时的极限分布,MLE与非-平均值的参数偏差Llen=100n=500n=1000(d)α=1.2图2:尾指数α不同值的最大似然分布和非参数渐近分布之间的比较。MLE的观测次数固定为100。

15
何人来此 在职认证  发表于 2022-6-1 02:30:34
注意,即使所有分布的平均值都为零,由于偏态性,非参数估计的分布模式也不同于零。在最大似然估计量和非参数估计量之间,我们在极大似然估计量的情况下计算观测值的数量,同时让它们在非参数估计量中变化。我们对不同类型的尾部指数进行了这项研究,以显示对估计量一致性的影响有多大。值得注意的是,随着尾部指数向1(有限平均值的阈值)递减,非参数估计值的分布模式会远离分布的平均值(定义以0为中心,因为我们正在处理与平均值的偏差)。这种效应导致了应用中观察到的小样本偏差。由于尾参数每个值的极限值的正态性,这种现象在MLE情况下不存在。我们可以通过评估非参数估值器在不同尾部情景下与MLEone一样好所需的观测数n,使我们的论证更加严格。让我们考虑似然比类型函数(c,n)=PS(| DNPn |>c)PN(| DML |>c),(16),其中PS(| DNPn |>c)和PN(| DML |>c)是中心估计量在非参数情况下以及在MLE情况下超过阈值±c的概率(分别为α-稳定和高斯),如等式(15)和(14)所示。在非参数情况下,允许观测值n发生变化,而在最大似然估计情况下,观测值n固定为100。然后,我们寻找值n,使得固定c的r(c,~n)=1。表2显示了不同阈值c和尾部参数α的结果。

16
可人4 在职认证  发表于 2022-6-1 02:30:37
特别是,我们可以看到,极大似然估计如何优于非参数估计,非参数估计需要更多的观测才能获得n固定为100的极大似然估计的相同尾部概率。例如,当α=1.2时,我们需要非参数估计量至少80×10个观测值才能获得超过MLE 1的±0.02阈值的相同可能性。表2:对于不同阈值c和尾指数α的不同值,非参数估计器与最大似然估计器的尾概率相匹配所需的观测数n,固定n=100。根据方程(16)的阈值c:α0.005 0.01 0.015 0.021.8 27×1012×1012×1063×101.5 21×1021×1046×1081×101.2 33×1067×1020×1080×10有趣的是,匹配方程(16)中尾部概率所需的观测数并不随阈值均匀变化。这是意料之中的,因为当阈值变为完整或为零时,n的每个值的尾部概率都保持不变。因此,鉴于极限分布的单峰性,我们预计将有一个阈值,最大化匹配尾部概率所需的观测数,而对于所有其他级别,观测数将更小。我们得出结论,当存在具有有限方差的厚尾数据时,应首选基于插入式MLE的估计器,而不是非参数估计器。小样本修正定理3也可用于修正小样本非参数估计量的偏差。关键思想是要认识到,对于单峰分布,大多数观测值都来自模式周围。

17
mingdashike22 在职认证  发表于 2022-6-1 02:30:40
在对称分布中,模式和平均值重合,因此大多数观测值也将接近平均值,而对于倾斜分布则不是这样:对于右倾斜的连续单峰分布,模式低于平均值。因此,鉴于非参数基尼指数的渐近分布是右偏的,我们预计基尼指数的观测值通常会低于真实值(置于平均水平)。我们可以通过查看模式和平均值之间的距离来量化这种差异(即偏差),一旦知道了这种距离,我们就可以通过将其加回来来修正我们的吉尼斯估值。形式上,我们的目标是推导一个修正的非参数估计量GC(Xn),使得GC(Xn)=GNP(Xn)+| | m(GNP(Xn))-E(GNP(Xn)),(17),其中| | m(GNP(Xn))-E(GNP(Xn))| |是模式m和非参数基尼估计值GNP(Xn)分布平均值之间的距离。执行方程式(17)中所述的修正类型相当于改变GNP(Xn)的分布,以便将其模式置于基尼指数的真实值上。理想情况下,我们希望测量该模式的平均距离| | m(GNP(Xn))-E(GNP(Xn))| |对基尼指数的精确分布进行最精确的修正。然而,有限分布并不总是容易推导的,因为它需要对数据生成过程的参数结构进行假设(在大多数情况下,厚尾数据未知[19])。因此,我们建议使用第2节获得的非参数基尼的极限分布来近似有限样本分布,并用它来估计模式平均距离。

18
能者818 在职认证  发表于 2022-6-1 02:30:43
考虑到极限分布仅取决于尾部指数和数据的平均值,通常可以假设这是尾部指数本身的函数,如在帕累托情况下u=αα,该程序允许在建模假设中有更多的自由度,并可能减少要估计的参数数量-1、利用α-稳定分布的位置-尺度特性和方程(11),我们用GNP(Xn)近似有限样本的GNP(Xn)分布~ S(α,1,γ(n),g),(18),其中γ(n)=nα-1αL(n)u是极限分布的标度参数。因此,由于α稳定分布模式的线性,我们有| | m(GNP(Xn))- E(GNP(Xn))| |≈ ||m(α,γ(n))+g- g | |=| | m(α,γ(n))| |,其中m(α,γ(n))是具有零均值的α稳定分布的模函数。这意味着,为了获得校正项,不需要了解真实基尼指数,因为m(α,γ(n))不依赖于我们在撰写论文时测试的其他想法,即使用主题和平均值之间的距离;性能具有可比性。然后,我们估计校正项为^m(α,γ(n))=arg maxxs(x),(19),其中s(x)是相关α-稳定分布不等式(18)的数值密度,但以0为中心。这是因为,对于α-稳定分布,模式在闭合形式下不可用,但可以使用单峰定律进行数值计算。修正后的非参数估计量为thusGC(Xn)=GNP(Xn)+^m(α,γ(n)),(20),其渐近分布为gc(Xn)~ S(α,1,γ(n),g+^m(α,γ(n)))。(21)注意,校正项^m(α,γ(n))是尾部指数α的函数,并通过相关极限分布的尺度参数γ(n)与样本量n相连。

19
可人4 在职认证  发表于 2022-6-1 02:30:46
需要指出的是,^m(α,γ(n))在n中递减,而limn→∞^m(α,γ(n))→ 这是因为,随着n的增加,方程(18)中描述的分布越来越集中在其平均值周围,模式和平均值之间的距离缩小到零。这确保了修正估计量和非参数估计量的渐近等价性。请注意这一点→∞|G(Xn)C- GNP(Xn)|=limn→∞|GNP(Xn)+^m(α,γ(n))- GNP(Xn)|=limn→∞|^m(α,γ(n))|→ 自然,由于校正,GC(Xn)在小样本中的表现总是更好。还可以考虑,从方程(21)中,校正估计量的分布现在对于平均值g+^m(α,γ(n)),它收敛到真基尼g为n→ ∞.从理论上看,这种修正的质量取决于GNP(Xn)的精确分布与其α稳定极限之间的距离;两者之间的距离越近,逼近效果越好。然而,鉴于在大多数情况下,国民生产总值(Xn)的确切分布尚不清楚,因此无法提供更多细节。从我们迄今为止所写的内容来看,很明显,校正项取决于数据的尾部指数,也可能取决于它们的平均值。如果这些参数不被假定为先验已知,则必须对其进行估计。因此,估算产生的额外不确定性也将反映在校正质量上。在本节结束时,我们将通过一个简单的示例讨论纠正程序的效果。

20
何人来此 在职认证  发表于 2022-6-1 02:30:50
在蒙特卡罗实验中,我们模拟了1000个规模不断增大的帕累托样本,从n=10到n=2000,对于每个样本,500 1000 1500 20000.0 0 0.2 0.4 0.6 0.8 1.0相对于原始估计器校正,数据尾部指数=1.8样本大小估计器值校正估计器原始估计器真值(a)α=1.80 500 1000 1500 20000.0 0 0 0.2 0.4 0.6 0.8 1.0相对于原始估计器校正,数据尾部指数=1.6样本大小估计值校正估计值原始估计值真值(b)α=1.60 500 1000 1500 20000.0 0.2 0.4 0.6 0.8 1.0相对于原始估计值校正,数据尾部指数=1.4样本大小估计值校正估计值原始估计值真值(c)α=1.40 500 1000 1500 20000.0 0 0.2 0.4 0.6 0.8 1.0相对于原始估计值校正,数据尾部指数=1.2样本大小估计值校正估计值原始估计值真值(d)α=1.2图3:校正后的非参数估计值(红色,顶部)与常用非参数估计值(黑色,下方)之间的比较。对于小样本量,修正后的方法明显提高了估计的质量。样本量我们计算原始非参数估计量GNP(Xn)和校正后的GC(Xn)。我们对不同的α重复实验。图3显示了结果。很明显,就与真实基尼值的绝对偏差而言,校正后的估计值总是比未校正的估计值表现更好。特别是,我们的数值实验表明,对于小样本,n≤ 1000对于α的所有不同值,增益都非常显著∈ (1, 2).然而,正如预期的那样,估计量之间的差异随着样本量的增加而减小,因为校正项在n和尾部指数α中都减小了。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 11:36