楼主: kedemingshi
1251 16

[量化金融] 分位数贡献的超可加性和估计偏差 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
89.2735
学术水平
0 点
热心指数
8 点
信用等级
0 点
经验
24665 点
帖子
4127
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
kedemingshi 在职认证  发表于 2022-5-6 05:02:41 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《On the Super-Additivity and Estimation Biases of Quantile Contributions》
---
作者:
Nassim N Taleb, Raphael Douady
---
最新提交年份:
2014
---
英文摘要:
  Sample measures of top centile contributions to the total (concentration) are downward biased, unstable estimators, extremely sensitive to sample size and concave in accounting for large deviations. It makes them particularly unfit in domains with power law tails, especially for low values of the exponent. These estimators can vary over time and increase with the population size, as shown in this article, thus providing the illusion of structural changes in concentration. They are also inconsistent under aggregation and mixing distributions, as the weighted average of concentration measures for A and B will tend to be lower than that from A U B. In addition, it can be shown that under such fat tails, increases in the total sum need to be accompanied by increased sample size of the concentration measurement. We examine the estimation superadditivity and bias under homogeneous and mixed distributions.
---
中文摘要:
对总(浓度)的上百分位贡献的样本度量是向下倾斜的、不稳定的估计量,对样本量极为敏感,在解释大偏差时呈凹形。这使得它们特别不适用于具有幂律尾的领域,尤其是指数值较低的领域。如本文所示,这些估计器可以随着时间的推移而变化,并随着人口规模的增加而增加,从而提供了集中度结构变化的假象。在聚集分布和混合分布下,它们也不一致,因为A和B浓度测量的加权平均值往往低于A和B的加权平均值。此外,可以证明,在这种厚尾情况下,总总和的增加需要伴随浓度测量样本量的增加。我们研究了齐次分布和混合分布下的估计超加性和偏差。
---
分类信息:

一级分类:Statistics        统计学
二级分类:Applications        应用程序
分类描述:Biology, Education, Epidemiology, Engineering, Environmental Sciences, Medical, Physical Sciences, Quality Control, Social Sciences
生物学,教育学,流行病学,工程学,环境科学,医学,物理科学,质量控制,社会科学
--
一级分类:Quantitative Finance        数量金融学
二级分类:Risk Management        风险管理
分类描述:Measurement and management of financial risks in trading, banking, insurance, corporate and other applications
衡量和管理贸易、银行、保险、企业和其他应用中的金融风险
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
--> On_the_Super-Additivity_and_Estimation_Biases_of_Quantile_Contributions.pdf (1.43 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:分位数 Applications Contribution distribution Quantitative

沙发
何人来此 在职认证  发表于 2022-5-6 05:02:46
极端风险倡议——纽约大学工程学院关于分位数贡献的超可加性和估计偏差的工作论文系列Nassim Nicholas Taleb*, 拉斐尔·杜阿迪+*纽约大学工程学院+Riskdata&C.N.R.S.Paris,Labex ReFi,索邦经济中心Abstract对总(浓度)的百分位数贡献的样本测量是向下倾斜的、不稳定的估计量,对样本量极为敏感,在解释大偏差时呈凹形。这使得它们在具有幂律尾的领域尤其不适用,尤其是在指数值较低的情况下。如本文所示,这些估计器可以随着时间的推移而变化,并随着人口规模的增加而增加,从而提供了集中度结构变化的结论。在聚集分布和混合分布下,它们也是一致的,因为A和B浓度测量的加权平均值往往低于A∪ B.此外,可以看出,在这种厚尾情况下,总总量的增加需要伴随着浓度测量样本量的增加。我们研究了齐次分布和混合分布下的估计超加性和偏差。第四版,2014年11月11日。简介维尔弗雷多·帕雷托注意到,意大利80%的土地属于20%的人口,反之亦然,这就催生了幂律分布和俗语80/20。

藤椅
kedemingshi 在职认证  发表于 2022-5-6 05:02:50
幂律[1]和[2]属性的核心自相似性允许我们递归并将80/20应用于剩余的20%,以此类推,直到我们得到这样一个结果,即人口中最顶层的人约占总财富的53%。看起来,这种浓度测量可能存在严重偏差,这取决于它的测量方式,因此,帕累托观察到的浓度的真实比率,即最高百分位的比例,很可能接近70%,因此同比变化将从更大的样本漂移到更高的水平。事实上,正如我们将在本次讨论中所展示的那样,比如说财富,由于技术进步而产生的更为复杂的样本,以及更大的人口和经济增长,将通过随时间增加而使这种衡量趋同,原因除了样本空间或总价值的扩大。问题的核心是,对于一类有尾随机变量,即左有界右无界,其中随机变量X∈[xmin,∞), 样本内分位数贡献是实际分位数贡献真实值的偏差估计。让我们定义分位数贡献κq=qE[X | X>h(q)]E[X],其中h(q)=inf{h∈ [xmin+∞) , P(X>h)≤ q} 是给定样本(Xk)1的概率q的超出阈值≤K≤n、 它的“自然”估计量bκq≡大多数学术研究中使用的qthpercentiletotal可以表达为asbκq≡Pni=1Xi>^h(q)XiPni=1Xi,其中^h(q)是概率q:^h(q)=inf{h:nnXi=1x>h的估计超越阈值≤ q} 我们将看到,观察到的变量bκQI是真实比率κq的一个向下偏差估计量,该估计量将维持样本,这种偏差与样本的肥度成比例,并且对于非常厚尾分布,即使对于非常大的样本,仍然是显著的。二、

板凳
可人4 在职认证  发表于 2022-5-6 05:02:53
非混合帕累托分布的估计设X是一个随机变量,属于具有“幂律”右尾的分布类,即:P(X>X)~ L(x)x-α(1)式中L:[xmin+∞) → (0, +∞) 是一个缓慢变化的函数,定义为limx→+∞L(kx)L(x)=1表示任何k>0。对于小超标分位数(<50%),各种可能分布之间几乎没有差异,如学生t、Lévyα-稳定分布、达贡分布[3]、[4]辛格-马达拉分布[5]或直帕累托分布。指数1≤ α ≤ 2.正如[6]中所观察到的,大数定律的运行速度非常慢。这个问题对于α是尖锐的,但严格高于1,并且随着它的偏离,对于α=1,这个问题是严重的。A.偏差和收敛1)简单的帕累托分布:让我们首先考虑φα(x)α-帕累托分布的密度,从下方以xmin>0为界,换句话说:φα(x)=αxαminx-α-1x≥xmin和p(X>X)=xminxα. 在这些假设下,超越临界点为h(q)=xminq-1/α,我们有:κq=R∞h(q)xφ(x)dxR∞xminxφ(x)dx=h(q)xmin1.-α=qα-1α(2)极端风险倡议——纽约大学工程学院工作论文系列2如果X的分布是α-帕累托分布,仅超过一个临界点xCut,我们假设它低于h(q),因此我们有p(X>X)=λxα对于某些λ>0,我们仍然有h(q)=λq-1/α和κq=α- 1λE[X]qα-因此,对于a的实际分布,a的指数α与λ的比值λ等于λ,或α与λ的比值λ的估计值λ在表中表示,包括已开发的。在这种情况下,估计量对“小”样本非常敏感,“小”意味着在实践中10。我们在不同的样本规模上进行了多达一万亿次的模拟。

报纸
大多数88 在职认证  发表于 2022-5-6 05:02:56
而κ0.01≈ 0.657933,即使样本规模为1亿,仍然存在严重偏差,如表中所示。自然地,对于远离1的α,偏差迅速(非线性)减小,对于常数α,偏差在2的邻域内变弱,但对于α,偏差不是在混合分布下,我们将在后面讨论。在前1%的百分位数之外,它也较弱,因此本次讨论的重点是著名的“百分之一”和α指数的低值。表一:从10Monte Carlo实现中得出的κ=0.657933的估计偏差bκ(n)平均标准偏差MC runsbκ(10)0.405235 0.367698 0.160244bκ(10)0.485916 0.458449 0.117917bκ(10)0.539028 0.516415 0.0931362bκ(10)0.581384 0.555997 0.0853593bκ(10)0.591506 0.575262 0.0601528bκ(10)0.5130.397鉴于这些结果,我们进行了大量测试,我们可以推测偏倚κq-bκq(n)是c(α,q)n级的-b(q)(α)-1) 式中,康斯坦茨b(q)和c(α,q)需要计算。模拟表明,无论α和q的值是多少,B(q)=1,但估值器及其标准偏差的收敛速度相当慢,因此难以精确估计。2) 一般情况:在一般情况下,让我们确定阈值h,并定义:κh=P(x>h)E[x | x>h]E[x]=E[XX>h]E[x],这样我们就有了κq=κh(q)。我们还定义了n样本估计器:bκh≡Pni=1Xi>hXiPni=1Xi,其中有n个独立的X拷贝。κqby bκqlies的估计偏差背后的直觉是不同的。该值低于文献中可以找到的估计指数(约2),如下[7],是一个较低的估计值,不能从观察中排除。关于创新(新样本值)的集中度度量的凹度,是否低于阈值以上。设Ah(n)=Pni=1Xi>hxinds(n)=Pni=1Xi,这样bκh(n)=Ah(n)S(n)并假设为h。

地板
可人4 在职认证  发表于 2022-5-6 05:02:59
如果一个新的样本值Xn+1<h,那么新的值是bκh(n+1)=Ah(n)S(n)+Xn+1。该值为converxin Xn+1,因此Xn+1上的不确定性会增加其预期值。在方差条件下,如果新样本值Xn+1>h,则新值bκh(n+1)≈啊(n)+Xn+1-hS(n)+Xn+1-h=1-S(n)-Ah(n)S(n)+Xn+1-h、 它现在在Xn+1中是凹的,所以Xn+1上的不确定性会降低它的值。这两个相反的效应之间的竞争是后者的狂热,因为变量具有更高的凹度,并且变量在高于阈值的条件下比低于阈值的条件下具有更高的可变性(无论其测量结果如何)。分布的右尾越胖,影响就越大。总体而言,我们发现E[bκh(n)]≤E[Ah(n)]E[S(n)]=κh(请注意,解冻阈值^h(q)也会降低浓度测量估计值,增加引入一个额外样本时的效果,因为估计值^h(q)的预期值略有增加,尽管这种效果相当可忽略)。事实上,我们有以下几点:主张1。设X=(X)ni=1a随机样本,其中sizen>q,Y=Xn+1是一个额外的单次随机观察,并确定:bκh(X t Y)=Pni=1Xi>hXi+Y>hYPni=1Xi+Y。我们注意到,每当Y>h,就有:bκh(X t Y)Y≤ 对于bκqas,这个不等式仍然有效。^h(q,X,t)的值不依赖于Y>^h(q,X)的特定值。我们面临着一种不同于常见的小样本效应的情况,这种效应是由尾巴上罕见的观测结果产生的高影响造成的,而尾巴不太可能出现在小样本中,这种偏差通过重复样本运行而消失。估计器的共通性构成了有限时间内测量的上界,从而消除了较大的偏差,这导致了聚合问题,我们将在定理1中陈述。

7
大多数88 在职认证  发表于 2022-5-6 05:03:02
实际上,即使在非常大的样本中,非常大的罕见事件对κq的贡献也会使样本估计量的收敛性降低到真值。对于更好、无偏的估计,需要使用不同的路径:首先估计分布参数^α,^λ只有这样,才能估算理论尾贡献κq(α,λ)。Falk[7]观察到,即使使用适当的α和λ估计量,收敛速度也非常慢,即n阶-δ/ln n,其中指数δ取决于α和实际分布与理论帕累托的公差,通过海林格距离测量。特别是δ→ 0作为α→ 1,使α值较低时的收敛速度非常慢。极端风险倡议——纽约大学工程学院工作文件系列320 00040 00060 00080 000100 000Y0。650.700.750.800.850.900.95ΚHSXi+YLFig。1:额外观察对κY0的影响。6220.6240.626ΚHSXi+YLFig。2:额外观察对κ的影响,我们可以看到h两侧的凸性,除了对h左侧没有影响的值,这是一个1/nIII级区域。一个关于聚合不等性的不等式对于总n=Pmi=1ni的厚尾r.v.(X)ji,inm大小nieach的子样本的平均值的估计,只要总n不变,观察总数n在ni和j之间的分配并不重要。这里n个样本在m个子样本之间的分配并不重要,因为κ是凹的。接下来,我们证明了用bκqon衡量的全球集中度——一组广泛的数据——将高于当地集中度,因此,例如,汇总欧洲数据,将得出一个bκqon高于各国集中度的平均值——即“关于不平等的不平等”。

8
何人来此 在职认证  发表于 2022-5-6 05:03:06
换句话说,我们声称,当将样本分成子样本并取测量值bκq(ni)的加权平均值时,使用bκq(n)时的估计偏差甚至会增加。定理1。将n个数据划分为m个子样本n=n∪. . .∪n.各尺寸的n,nm,pmi=1ni=n,让我们,Smbe是每个子样本上的变量之和,S=Xmi=1是整个样本上的变量之和。同样的凹度——以及一般性偏差——适用于分布不正态且因高方差而加剧的情况。然后我们有:E[bκq(N)]≥mXi=1E姐妹E[bκq(Ni)],如果我们进一步假设变量在所有子样本中的分布相同。然后我们有:E[bκq(N)]≥mXi=1ninE[bκq(Ni)]换句话说,平均子样本的浓度测量值,通过每个子样本的总和进行加权,产生对整个样本的浓度测量值的向下偏差估计。证明:初等归纳法将问题归结为两个子样本的情况。让q∈ (0,1)和(X,…,Xm)以及(X,…,Xn)是正i.i.d.随机变量的两个样本,Xi具有分布p(dx)和Xj\'s剃须分布p(dx)。为了简单起见,我们假设qm和qn都是整数。我们设置S=mXi=1xinds=nXi=1Xi。我们定义了A=mqXi=1X[i],其中X[i]是(X,…,Xm)的第i个最大值,A=mqXi=1X[i],其中X[i]是(X,…,Xn)的第i个最大值。我们还设置=S+Sand A“=(m+n)qXi=1X[i],其中X[i]是接头样本的最大i值(X,…,Xm,X,…,Xn)。样品的q-浓度测量X=(X,…,Xm),X=(X,…,Xn)和X=(X,…,Xm,X。

9
nandehutu2022 在职认证  发表于 2022-5-6 05:03:09
,Xn)是:κ=ASκ=ASκ=AS我们必须证明以下不等式适用于预期浓度测量:E[κ]≥ E党卫军E[κ]+E党卫军我们观察到:A=maxJ{1,…,m}| J |=θmXi∈jxind,类似地A=maxJ{1,…,n},|J |=qnPi∈jxinda=maxJ{1,…,m+n},|J |=q(m+n)Pi∈JXi,其中我们表示Xm+i=xi,表示i=1。n、 如果J{1,…,m},|J |=θm和J {m+1,…,m+n},|J |=qn,然后J=J∪ Jhas基数为m+n,因此A+A=Pi∈JXi≤ A、 不管是什么样的样品。因此κ≥SSκ+SSκ,我们有:E[κ]≥ ESSκ+ ESSκ现在让我们展示一下:ESSκ= E像≥ E党卫军E像极端风险倡议——纽约大学工程学院工作论文系列4如果是这种情况,那么我们同样得到κ:ESSκ= E像≥ E党卫军E像因此我们将有:E[κ]≥ E党卫军E[κ]+E党卫军E[κ]设T=X[mq]为分界点(其中[mq]是mq的整数部分),因此A=mXi=1xixixi≥让B=S- A=mXi=1XiXi<T。有条件地,对于T,A和B是独立的:如果mθ样本与T保持一致,则A是和,而B是m(1)的和-θ) 独立样本被限制在T以下。它们也独立于外部系统。假设pA(t,da)和pB(t,db)分别是A和b的分布,给定t=t。我们记得p(ds)是沙的分布,表示q(dt)是t的分布。我们有:EκSS=对于给定的b,t和s,a,ZZa+ba+b+saa+bpA(t,da)pB(t,db)q(dt)p(ds)→a+ba+b+沙a→aa+是同一变量a的两个增函数,根据T,B和S的条件,我们有:SSκT、 B、S= EAA+B+ST、 B、S≥ EA+BA+B+ST、 B、SEAA+BT、 B、S这个不等式对T,B和S的任何值都有效,对无条件期望有效,我们有:ESSκ≥ E党卫军E像如果两个样本具有相同的分布,那么我们有:E[κ]≥mm+nE[κ]+nm+nE[κ]的确,在这种情况下,我们观察到E党卫军=嗯。

10
能者818 在职认证  发表于 2022-5-6 05:03:12
事实上,S=Pmi=1Xiand,夏尔分布相同,因此E党卫军= 我XS. 但我们也有EhSSi=1=(m+n)EXS因此EXS=m+n.类似地,EhSSi=nm+n,得到结果。这就结束了定理的证明。设X为正随机变量,h为正随机变量∈ (0, 1). 我们定义了理论h浓度测量值,定义为:κh=P(X>h)E[X | X>h]E[X],而n-样本θ浓度测量值是bκh(n)=A(n)S(n),其中A(n)和S(n)的定义如上i.i.d.变量的非样本X=(X,…,Xn),分布与X相同。定理2。对任何人来说∈ N、 我们有:E[bκh(N)]<κhandlimn→+∞bκh(n)=κha。s、 在概率分析中:上述确凿证据表明,sequencenE[bκh(n)]是超加性的,因此E[bκh(n)]是一个递增序列。此外,由于大数定律,nS(n)几乎肯定收敛,概率为E[X],Na(n)几乎肯定收敛,概率为toE[XX>h]=P(X>h)E[X | X>h,因此它们的比率也几乎肯定收敛到κh。另一方面,这个比率是以1为界的。Lebesgue主导收敛定理总结了关于概率收敛的论点。四、 尾指数的混合分布现在考虑一个随机变量X,其分布p(dx)是参数分布的混合,参数值不同:p(dx)=Pmi=1ωipαi(dx)。X的典型n-样本可以由分布为pαi的Xαi样本中的ni=ω构成。上述定理表明,在这种情况下,我们有:E[bκq(n,X)]≥mXi=1ES(ωin,Xαi)S(n,X)n时的E[bκq(ωin,Xαi)]→ +∞, 每个比值(ωin,Xαi)S(n,X)几乎肯定分别收敛到ωi,因此我们有以下凸性不等式:κq(X)≥mXi=1ωiκq(Xαi)帕累托分布的情况特别有趣。这里,参数α表示分布的尾部指数。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 00:53