楼主: 大多数88
1410 14

[量化金融] 非高斯分布的偏度和峰度分析 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

67%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
71.3197
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
23294 点
帖子
3809
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
大多数88 在职认证  发表于 2022-5-7 05:03:44 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Skewness and kurtosis analysis for non-Gaussian distributions》
---
作者:
Ahmet Celikoglu and Ugur Tirnakli
---
最新提交年份:
2014
---
英文摘要:
  In a recent paper [\\textit{M. Cristelli, A. Zaccaria and L. Pietronero, Phys. Rev. E 85, 066108 (2012)}], Cristelli \\textit{et al.} analysed relation between skewness and kurtosis for complex dynamical systems and identified two power-law regimes of non-Gaussianity, one of which scales with an exponent of 2 and the other is with $4/3$. Finally the authors concluded that the observed relation is a universal fact in complex dynamical systems. Here, we test the proposed universal relation between skewness and kurtosis with large number of synthetic data and show that in fact it is not universal and originates only due to the small number of data points in the data sets considered. The proposed relation is tested using two different non-Gaussian distributions, namely $q$-Gaussian and Levy distributions. We clearly show that this relation disappears for sufficiently large data sets provided that the second moment of the distribution is finite. We find that, contrary to the claims of Cristelli \\textit{et al.} regarding a power-law scaling regime, kurtosis saturates to a single value, which is of course different from the Gaussian case ($K=3$), as the number of data is increased. On the other hand, if the second moment of the distribution is infinite, then the kurtosis seems to never converge to a single value. The converged kurtosis value for the finite second moment distributions and the number of data points needed to reach this value depend on the deviation of the original distribution from the Gaussian case. We also argue that the use of kurtosis to compare distributions to decide which one deviates from the Gaussian more can lead to incorrect results even for finite second moment distributions for small data sets, whereas it is totally misleading for infinite second moment distributions where the difference depends on $N$ for all finite $N$.
---
中文摘要:
在最近的一篇论文[\\textit{M.Cristelli,a.Zaccaria和L.Pietronero,Phys.Rev.E 85,066108(2012)]中,Cristelli\\textit{et al.}分析了复杂动力系统的偏度和峰度之间的关系,并确定了两个非高斯性的幂律区,其中一个指数为2,另一个指数为4/3$。最后,作者得出结论,所观察到的关系是复杂动力系统中的普遍事实。在这里,我们用大量的合成数据测试了偏度和峰度之间的普遍关系,并表明它实际上不是普遍的,只是由于所考虑的数据集中的数据点很少。使用两种不同的非高斯分布,即$q$-高斯分布和Levy分布,对所提出的关系进行了测试。我们清楚地表明,如果分布的二阶矩是有限的,对于足够大的数据集,这种关系将消失。我们发现,与Cristelli等人关于幂律标度制度的主张相反,随着数据数量的增加,峰度饱和为单一值,这当然不同于高斯情况($K=3$)。另一方面,如果分布的二阶矩是无限的,那么峰度似乎永远不会收敛到一个值。有限二阶矩分布的收敛峰度值以及达到该值所需的数据点数量取决于原始分布与高斯情况的偏差。我们还认为,使用峰度来比较分布,以确定哪一个更偏离高斯分布,即使对于小数据集的有限二阶矩分布,也可能导致不正确的结果,而对于无限二阶矩分布,这是完全误导的,其中差分取决于所有有限的$N$。
---
分类信息:

一级分类:Physics        物理学
二级分类:Statistical Mechanics        统计力学
分类描述:Phase transitions, thermodynamics, field theory, non-equilibrium phenomena, renormalization group and scaling, integrable models, turbulence
相变,热力学,场论,非平衡现象,重整化群和标度,可积模型,湍流
--
一级分类:Physics        物理学
二级分类:Data Analysis, Statistics and Probability        数据分析、统计与概率
分类描述:Methods, software and hardware for physics data analysis: data processing and storage; measurement methodology; statistical and mathematical aspects such as parametrization and uncertainties.
物理数据分析的方法、软硬件:数据处理与存储;测量方法;统计和数学方面,如参数化和不确定性。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
--> Skewness_and_kurtosis_analysis_for_non-Gaussian_distributions.pdf (1.61 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:distribution Econophysics Mathematical Quantitative Applications

沙发
kedemingshi 在职认证  发表于 2022-5-7 05:03:49
非高斯分布的偏度和峰度分析Ahmet Celikoglu1,*Ege大学理学院物理系Ugur Tirnakli1,2,土耳其理论与应用物理研究所(ITAP)土耳其伊兹密尔统计力学与复杂性研究所Kaygiseki Mevkii,48740 Turunc,Mugla,Turla,Turla(日期:2014年12月4日)在最近的一篇论文[M.Cristelli,a.Zaccaria and L.Pietroniro,Phys.Rev.E 85,066108(2012)]中摘要,Cristelli等人分析了复杂动态系统的偏度和峰度之间的关系,并确定了两个非高斯幂律区域,其中一个以指数2为标度,另一个以指数4/3为标度。最后,作者得出结论,所观察到的关系是复杂动力系统中的普遍事实。在这里,我们用大量的合成数据测试了偏度和峰度之间的普遍关系,并表明它实际上不是普遍的,只是由于所考虑的数据集中的数据点很少。利用两种不同的非高斯分布,即q-高斯分布和Levy分布,对所提出的关系进行了检验。我们清楚地表明,如果d分布的二阶矩是有限的,对于足够大的数据集,这种关系将消失。我们发现,与Cristelli等人关于幂律标度制度的说法相反,随着数据数量的增加,峰度s饱和为单一值,这当然不同于高斯情况(K=3)。另一方面,如果分布的二阶矩是有限的,那么峰度似乎永远不会收敛到一个值。有限秒动量分布的收敛峰度值以及达到该值所需的数据点数量取决于原始分布与高斯情况的偏差。

藤椅
kedemingshi 在职认证  发表于 2022-5-7 05:03:53
我们还认为,用峰度来比较分布与决定哪个更偏离高斯分布可能会导致不正确的结果,即使是对于小数据集的有限二阶矩分布,但对于所有有限N的有限二阶矩分布,差异取决于N,这是完全误导的。PACS数:05.20-y、 89.75。达,89.65。生长激素*艾哈迈特。celikoglu@ege.edu.tr+乌戈尔。tirnakli@ege.edu.trI.引言在19世纪的最后几十年里,W.F.R.Weldon在分析贝壳的演化和收集形态学数据时遇到了一个问题。这个数据集的分布不是高斯分布。这种情况在当时是不常见的,让人想起了一个重要的问题:这种偏离高斯分布的现象是由于数据收集错误造成的,还是进化真的如此之快?当皮尔逊提出这个问题时,引入峰度指数的故事就开始了。欲了解更多信息,请参阅[1]及其参考文献。皮尔逊在1905年[2]首次引入峰度后,峰度已成为许多教科书中广泛遇到的一个量。如今,有一种看法认为,峰度值越大,意味着与高斯分布的偏差越大。基于这种感知,两个非高斯分布相互比较。关于使用峰度,有一些常见的误解。德卡洛已经解决了其中一些误解及其解释[3]。各种误解和误解不仅从本科水平的教科书,而且从研究生水平的例子进行了讨论。在最近的一项工作中,Cristelliet等人研究了偏度和峰度之间的关系[4]。作者分析了三种不同的非高斯数据集。

板凳
何人来此 在职认证  发表于 2022-5-7 05:03:56
其中两个来自全球质心矩张量(CMT)和ISIDe(意大利目录)地震目录。对于第三组数据,他们关注的是标准普尔500指数的每日价格回报。用于分析数据集的程序是将数据划分为子样本,并使用S=σ“NNXi=1(xi)给出的这些量的标准定义,计算每个子样本窗口的偏度(S)和峰度(K)- u)#,(1)和k=σ“NNXi=1(xi- u)#,(2)其中N是数据点的数量,u是样本的平均值,σ是标准偏差。最大的数据集(财务数据)被划分为长度N=250的子样本,如[4]的图2所示,观察到峰度与偏度plo t的两种不同的幂律标度制度。在其中一种制度中,所有点都像幂律一样聚集,指数为2,即,点S=0和K=3周围的K=S+(3),这是有限高斯分布的特征值。式(3)中的常数项是差值K的下限- 虽然分布的形状会影响边界的值,但皮尔逊发现它大约为1。2000年,克拉森将这种关系转化为最终形式(K)- s≥189/125),这在等式(3)中,对于单峰分布[5]。在这个机制之外,偏度和峰度之间的关系是幂律关系,指数为4/3。[4]中给出的解释这种行为的论点如下。如果数据集中存在一个充分的极端事件,则该事件将主导总结,其他点的贡献可以忽略不计。因此,力矩近似为SN(x)- u)σ,(4)KN(x)- u)σ,(5)其中x是极端事件的值。从等式(4)可以很容易地发现(x- u)/σ (NS)1/3并使用等式中的表达式。

报纸
kedemingshi 在职认证  发表于 2022-5-7 05:03:59
(5) 幂律关系可以通过 N1/3S4/3。(6) 对于地震,N值为100,对于初始时间序列,N值为250[4]。在这一点上,应该问的关键问题是,这种行为是否仍然像9次增加一样。我们在这里的主要目的是测试[4]中普遍存在的偏度和峰度之间的关系,使用已知不是nGaussian的非常大的合成数据集。另一个目的是找到以下问题的答案:(i)任何两个非高斯分布之间的最大峰度值是否总是意味着与高斯分布的较大偏差?(ii)如果不是,那么我们如何比较两个不同的非高斯分布,并确定哪一个与高斯分布的偏差更大?二、q-高斯作为非高斯分布A。生成q-高斯分布文献中有不同的方法生成高斯分布。最流行和最著名的方法之一是Box-Muller方法[6]。另一方面,自然界中有许多复杂系统不呈现高斯分布。在文献中,在物理学、生物学、地球物理学、经济学等领域有几个实验、观测和模型系统的例子,它们表现出q-高斯分布。这些分布优化了非加性熵Sq,定义为Sq≡ (1 -皮奇)/(q- 1) 并且被认为是非扩展统计力学[7,8]的基础,并在→ 1.如果1<q<3,q-高斯分布是长尾非高斯分布,类似于经济的每日价格收益[9,10]以及地震的收益分布[11,12]。因此,为了达到上述目的,它们是非常好的候选者。

地板
kedemingshi 在职认证  发表于 2022-5-7 05:04:02
已知这些分布对于1<q<5/3(5/3<q<3)有有限(有限)次矩。不用说,我们需要对Box-Muller方法进行推广,从中可以生成q-高斯分布。Thistleton等人于2007年进行了这一概括[13]。假设这些变量是从(0,1)定义的均匀分布中选择的独立随机变量。结果表明,两个随机变量Zand Zc可以定义为z≡Q-2 lnq′(U)cos(2πU)Z≡Q-2 lnq′(U)sin(2πU)(7),它们中的每一个都是标准的q-G aussian偏差,其特征是一个新的参数q,由q=3q′给出- 1q′+1。这里LNq是q对数,定义为LNq(x)≡x1-Q- 11- qx>0,(8)其逆称为q-指数,并以asexq为界≡[1 + (1 - q) x]1-q、 1+(1- q) x≥ 0,0,否则。(9) 最后,我们可以定义q-高斯分布asp(x;uq,σq)=AqpBq[1+(q- 1) Bq(x)- uq)]1-q、 (10)式中,uqis是q-均值,σqis是q-方差,aq是归一化因子,bq是表征分布宽度的参数。这些参数定义如下:uq≡Rx[p(x)]qdxR[p(x)]qdx(11)σq≡R(x)- uq[p(x)]qdxR[p(x)]qdx(12)Aq=Γ[5-第三季度(1)-q) [2]-q1-q] q1-qπ,q<1,√π、 q=1,Γ[q]-1]Γ[3-q2(q)-1) ]qq-1π,1<q<3。(13) Bq=[(3)- q) σq]-1q∈ (-∞, 3). (14) 使用这种广义Box-Muller方法,可以生成任意数量的任意q值的q-高斯分布的数据集。B.偏度和峰度公式(1)和公式(2)分别给出了偏度和峰度的标准定义。改变等式(7)中q的值,可以简单地为不同的q值生成q高斯分布,如图1所示。因此,现在我们有了所有必要的成分来测试偏斜度和峰度之间的关系。

7
能者818 在职认证  发表于 2022-5-7 05:04:06
我们已经为各种q值生成了q-高斯分布,并将数据集划分为子样本,计算每个子样本窗口的偏度和峰度值,这与[4]中使用的程序完全相同。为了精确模拟inFig给出的结果。在[4]中的第2页,我们为每个窗口绘制N=250,并绘制峰度为偏度-3-2-1 0 1 2 3x p(0)-4-3-2-1q=2.5q=2q=1.3q=1FIG的函数。1.(在线颜色)代表性q值的q高斯分布。高斯分布也是q=1的特例。对于图2中q=1.5的q-高斯分布,其中每个点指的是一个窗口。伊菲格。[4]中的2与我们的图2相比,很容易看出它们几乎相同。如果对非常接近S=0的区域进行缩放,可以看到,对于这个非常窄的区域,数据点服从指数2的幂律关系。在这种情况下,从每个窗口获得的分布似乎离高斯分布不远。事实上,即使我们生成q-高斯分布,由于数据点的数量非常小,分布的尾部采样率很低,而其中心部分采样率很高。由于任何q-高斯都不会在其中心部分与高斯有太大区别,这就解释了为什么我们看到这样一种情况,即点在S中聚集在S=0和K=3附近-K飞机。由于我们生成对称的q-高斯分布,可以很容易地找到零偏度的点,但由于非高斯性,图2中所有点的峰度值都大于3。当极端事件碰巧出现(即数据来自轨道)并在任何窗口中占主导地位时,对应于该窗口的数据点将消失- K平面开始远离S=0和K=3区域。正如我们在介绍中所解释的(参见等式。

8
nandehutu2022 在职认证  发表于 2022-5-7 05:04:09
(4) -(6)),如果有足够多的极端事件,它们支配着所有的求和,并且这个关系变成了另一个指数为4/3的幂律。图2中的黑色虚线表示指数2(等式(3))的幂律关系,它对应于S中点的下限- K飞机。如图F-ig所示。2、-15-10-5Skewnessq=1.5K=S+189/125K=N1/3S4/3FIG。2.(在线彩色)q=1.5的q-高斯分布的峰度与偏度。点数是2000。其中每一个都是一个示例窗口,每个窗口有N=250个数据点。该图应与[4]中的图2进行比较-50-2525-50SkewnessN=10N=10N=10-3-2-1(a)-15-10-5Skewnessq=1.75q=1.50q=1.25-3-2-1(b)图3。(颜色在线)对于N(a)的不同值,q=1.5的峰度与偏度,以及对于N=250(b)的q的不同值。通过将纵坐标除以N1/3,三条不同的曲线相互折叠。在插图中,我们以对数比例绘制相同的数据。蓝色实线是指数为4/3的幂律。蓝色实线(等式(6))与远离该区域的点非常匹配。因此,如果使用相同数量的数据点,我们的q=1.5的合成数据完全模拟了[4]中给出的经济数据。现在,我们可以测试不同值的N与相同值的行为,以及不同值的q与相同N的行为,以了解N和q是否以及如何影响S中系统的行为- K飞机。首先,如图3a所示,我们绘制了不同N值的峰度与偏度的曲线图,这些N值具有相同的q值(q=1.5),很明显,随着N的增加,峰度达到指数为4/3的幂律区域后的高值。然后,如图。

9
可人4 在职认证  发表于 2022-5-7 05:04:12
3b,我们绘制了相同的图表,这一次,对于不同的q值,N为N=250,可以很容易地看到,随着q的增加,更高的峰度值达到了相同的功率定律行为。因此,增加N和q的值会得到相同的结果,尽管导致这种结果的机制不同。如果q增加,这会导致分布更为长尾,并且可能更频繁地发现极端事件,这当然会给出增加N的相同结果,因为如果为给定q增加N,无论q的值如何,发现极端事件的可能性也会增加。如图2和图3a所示,虽然每个窗口中的所有数据都是从相同的分布中选择的(每个窗口都是同一数据集的一部分),但一些窗口的尾部数据往往更多,峰度值也更大。这一结果并不一定表明峰度值越大的分布越是长尾分布,因此离高斯分布越远。It仅表示在对应数据集(窗口)的总和中,尾部的贡献大于另一个窗口。此外,让我们假设两个具有不同q值的分布。如果要比较这些分布,可以推导出不同N值的完全相反的结果。当然,q值越大的分布呈现出更多的长尾分布。因此,通常人们期望Q值较大的分布具有较大的峰度。但是,由于极端事件大量分布在整个数据集中,因此无法保证在考虑的数据集中,任何给定的窗口都能很好地表示尾部。有时,尤其是对于较小的N值,几乎所有数据都可能来自分布的中心部分。无花果。

10
kedemingshi 在职认证  发表于 2022-5-7 05:04:15
3b,每个点代表峰度和一个窗口的偏度值,该窗口的N=250。如图所示,对于q=1.5,可以在幂律区域中找到指数为4/3的分布点,其峰度值大于幂律区域中指数为2 o的分布点f或q=1.75的所有点。因此,如果有两个不同的数据集对应上述窗口,他/她的结论是,q=1.75的分布比q=1.5的分布更接近高斯分布。但很明显,这将是一个错误的结论。这只表明,为了正确地描述分布,这些分布的采样不够充分。这个问题只能通过使用足够大的N来克服。还值得一提的是,在图3中,指数为2的幂律区域的最小值随着N的增加而缓慢增加,对于agiven q值,或者随着分布的q值对于给定的N值而增加。此时的下一步必须是检查峭度是否接近任何有限N的有限值。因此,我们将不同q高斯的峭度绘制为N的函数。图4给出了两个典型案例的结果。可以清楚地看到,在q=1.3的情况下,峰度接近一个固定值,因为N是中等大的,而在q=1.75的情况下,即使是非常大的N值,如10,峰度也不会饱和。我们系统地用q检验了几个q-高斯分布∈ [1,1.5]并观察到峰度随着N的增加而缓慢增加,然后达到一个恒定值。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-8 09:15