楼主: 大多数88
666 37

[量化金融] 多项式VaR回测:一种简单的隐式回测方法 [推广有奖]

21
能者818 在职认证  发表于 2022-6-13 22:05:38 |只看作者 |坛友微信交流群
在这个层次上,大小更为多变,在小样本中往往过高;特别是,在最小样本的情况下,单侧LRT(巴塞尔例外测试)的尺寸很小。分数测试似乎再次具有最佳的规模属性。在这种情况下,测试更强大,因为四个模型的分位数之间存在更明显的差异。由于非正态模型与正态模型相比产生了太多的异常,因此单侧测试比双侧测试更有效。分数测试和LRT似乎比Waldtest更强大一些。只有在最大样本(1000和2000)和最长右尾分布(倾斜t3)的情况下,我们才能获得高功率(绿色电池)。3.1.3多项试验结果结果如表3所示,并以图形方式显示在图1中。请注意,如第2.3节所述,N=1的Pearson检验给出的结果与表2中的双侧得分检验相同。在N=1的情况下,Nass统计量与Pearson统计量的值非常接近,也给出了大致相同的结果。N=1的轻轨是表2中的双面轻轨。测试的大小。表3的第一个面板中总结了三个测试的大小结果,其中G为正常值,图1的第一行图片中总结了这三个测试的大小结果。可以提出以下几点:N的Pearsonχ检验的大小迅速恶化≥ 8表明睾丸对箱子大小非常敏感Nass测试具有最佳的尺寸特性,对于所有N和所有样本尺寸的选择都非常稳定。与其他测试相比,2的尺寸始终小于或等于5%≤ N≤ 8.当N超过8时,尺寸有轻微增加5%以上的趋势在尺寸n=250的最小样本中,轻轨的尺寸过大,但在其他情况下,对于n的所有选择,轻轨的尺寸都是合理的。

使用道具

22
kedemingshi 在职认证  发表于 2022-6-13 22:05:42 |只看作者 |坛友微信交流群
与Nass相比,尺寸通常更大,倾向于略大于5%,除非n=2000和n≤ 图1:作为N函数的三个多项式检验的大小(第一行)和幂列对不同样本大小的响应,以及对不同基础分布的响应。G.5101520250 500 1000 2000正态20406080100T50204060801010031 2 4 16 32 64N204060801001 2 4 16 32 64N1 2 4 8 16 32 64N1 2 4 16 32 64Nst3size/幂检验=Pearson检验=Nass检验=LRTPower测验。在图1的第2–4行中,对于不同的真实底层分布G,三个测试的功效显示为N的函数。可以看出,对于所有N,LRT通常是最强大的测试。Nass检验的功效一般略低于皮尔逊检验;当N=8或N=16时,它往往会达到最大值,然后下降-这似乎是Nass测试进行的皮尔逊测试大小修正的代价。然而,通常最好使用N=8的Nass测试,而不是N=4的Pearson测试。以下是一些进一步的观察结果学生t5(第二排)。这是三次测试中最具挑战性的一次,因为尾巴比t3学生的尾巴轻,而且没有歪斜。结论如下:-对于Nass和Pearson测试,我们需要n=2000和n≥ 4获得70%以上的功率(表中为绿色);-对于LRT,可使用n获得70%以上的功率≥ 1000和N≥ 16,orn=2000和N≥ 4.o学生t3(第三排):-正如预期的那样,功率大于t5获得的功率;-为了使功率超过70%,我们需要在Pearsonand Nass测试中取n=2000;对于轻轨,我们可以取n=1000和n≥ 4,或n=500和n≥ 32.o倾斜学生t3(第四排)。在这里,当n=1000时,我们获得的所有三个测试的功率都大于70%≥ 4.

使用道具

23
何人来此 在职认证  发表于 2022-6-13 22:05:45 |只看作者 |坛友微信交流群
这是因为歪斜将尾部强烈地推到右侧。一般来说,N=4或8的Nass测试似乎是可接受的大小和功率之间的一个很好的折衷,并且略优于N=4的Pearson文本;也可以提出一个论点,认为N=4的Nass测试优于N=4的Pearsontest,因为使用一个比Pearson更稳定的测试是令人放心的,即使功率略微降低。与Nass相比,N=4或N=8的轻轨有点过大,但动力非常强大;对于更大的数据样本(参见n=2000的情况),它有自己的特点。如果获得拒绝不良模型的权力是压倒一切的担忧,那么n>8的LRT非常有效,但开始违反我们的测试不应比二项测试更繁重的原则。很明显,不管选择什么测试,我们都应该选择N≥ 4因为结果测试比二项测试或仅两个VaR水平的联合测试更有效。在表4中,我们收集了99%VaR(最强大的二项检验)例外情况的单侧二项得分检验的结果,以及Pearson和Nass检验(N=4)和LRT检验(N=4和N=8)的结果。在n的样本量中,多项检验的表现最为明显≥ 500.总之,我们发现:o对于n=250,对于t5,所有测试的功率小于30%,最大值由n=8的轻轨给出。对于t3来说,后者也是最强大的测试,是唯一一个功率大于30%的测试对于n=500,n=4的Nass和Pearson检验提供的值高于t3和st3的二项式检验,但t5的值略低。

使用道具

24
可人4 在职认证  发表于 2022-6-13 22:05:48 |只看作者 |坛友微信交流群
在所有情况下,N=4的LRT比二项式、Pearson和Nass测试更强大,N=8的LRT更强大与最佳二项检验相比,多项式检验最明显的优势在于最大样本量n=1000和n=2000。在这种情况下,所有的多项式检验都比二项检验具有更高的幂。还应注意的是,二项检验的结果对α的选择更加敏感。我们在表2和表3中看到,它们在α=0.975时的性能非常差。使用一系列阈值的多项式测试对这些阈值的精确选择不太敏感,这使它们成为更可靠的测试类型。G n |测试箱(0.99)Pearson(4)Nass(4)LRT(4)LRT(8)Normal 250 4.0 5.6 5.0 6.5 6.5500 3.7 5.2 4.7 5.5 5 5 5.61000 3.8 5 5.0 4 5.5 5 5 5.4 4 4 4.5 5 5.0T550 17.7 14.1 12.8 15.8 21.6500 22.4 22.1 20.5 26.9 36.61000 33.0 40.2 39.4 46.4 61.82000 59.9 70.4 69.6 77.4 89.5t3 250 13.5 13.7 12.1 24.4 35.4500 16.2 25.2 22.4 44.2 58.61000 22.3 55.6 54.1 75.4 87.72000 41.4 91.0 90.5 96.8 99.4st3250 31.2 28.8 26.3 33.5 46.5500 44.2 50.7 47.6 59.3 73.61000 66.2 83.0 82.3 88.1 95.32000 92.9 98.7 98.6 99.3 99.9表4:α=0.99的单侧二项得分检验和N=4的Pearson、Nass和似然比检验以及N=8的LRT的估计大小和功效比较。结果基于10000次重复3.2静态回溯测试实验。我们实施的回溯测试风格(此处和第3.3节)旨在模仿实践中使用的程序,其中模型不断更新以使用最新的市场数据。

使用道具

25
可人4 在职认证  发表于 2022-6-13 22:05:51 |只看作者 |坛友微信交流群
我们假设估计模型每10步更新一次;如果这些步骤被解释为交易日,则相当于每两个交易周。3.2.1实验设计在每个实验中,我们从真实分布中生成一个n+n值的总数据集;我们使用与上一节相同的四个选项。背面测试的长度n固定为1000。建模者使用一个滚动的n值窗口来获得估计的分布F,包括250和500。我们考虑了F的4种可能性:知道正确分布及其精确参数值的oracle。估计正确分布类型的优秀建模师(G为正态时为正态,G为t5或t3时为Student t,G为st3时为skewed Student)。可怜的建模师,总是估计正态分布(只有当G为正态时才令人满意)。行业建模者,通过形成标准的经验分位数估计值来使用经验分布函数,这种方法在行业中被称为历史模拟。为了明确滚动估算程序,建模人员首先使用数据,Ln形成模型F,并对j=1,…,进行分位数估计VaRαj,n+1,N、 然后将其与实际损失{Ln+i,i=1,…,10}进行比较,并计算每个VaR水平的异常。然后建模人员将数据集向前滚动10步,并使用数据L,Ln+10进行分位数估计VaRαj,n+11,与损失{Ln+10+i,i=1,…,10}相比;因此,总共对模型进行了重新估计,n/10=100次。我们考虑与之前相同的三个多项式检验和相同的levelsN数。

使用道具

26
能者818 在职认证  发表于 2022-6-13 22:05:54 |只看作者 |坛友微信交流群
实验重复1000次,以确定排斥率。3.2.2结果在表5和表6中,我们使用了与之前相同的配色方案,但现在需要对尺寸和功率的概念进行解释。oracle的回溯测试结果(谁知道正确的模型)应根据大小进行明确判断,因为我们需要控制错误拒绝oracle分位数“估计”准确的完整假设的第一类错误。我们根据与oracle相同的标准来判断优秀建模者的结果。在此过程中,我们判断,当建模者选择正确的分布类别时,大小为n=250或n=500的样本足以在静态情况下参数估计分位数。在这种情况下,我们不想让高拒绝率太频繁地惩罚GoodModeler。因此,我们将尺寸着色方案应用于theoracle和优秀的建模者。糟糕的建模者的回溯测试结果应该根据能力来判断。我们希望为使用错误分布的建模者获得较高的拒绝率,无论他或她使用了多少数据。因此,在这种情况下,应采用幂着色。对于行业建模者来说,情况更加微妙。如果使用足够的数据,经验分位数估计是一种可接受的方法。然而,说什么是足够的数据并不容易,因为这取决于基础分布的尾部有多重,以及分位数估计到尾部有多远(取决于N)。

使用道具

27
可人4 在职认证  发表于 2022-6-13 22:05:58 |只看作者 |坛友微信交流群
为了保持简单,我们做出了任意决定,即n=250的样本量太小,无法使用经验分位数估计,我们在这种情况下应用了powercoloring;不应鼓励建模者在小样本中使用经验量化估计。另一方面,我们认为n=500是可接受的精神分位数估计样本量(尤其是对于n值高达4的情况)。我们在这种情况下应用了SizeColor。总的来说,我们正在寻找一种测试方法,该方法能够尽可能多地提供表5中所示的绿色,并将红色的数量降至最低。oracle和good Modeler的结果在所有测试和所有N值的期望绿色区域中,除了N>4的Pearson测试。正是在判断糟糕的建模者的结果时,多项式检验对二项式检验的影响变得明显。事实上,使用二项式测试(N=1)并不能为较差的建模者带来可接受的拒绝率,而使用N=2的测试通常也是不够的,但偏斜的学生案例除外。

使用道具

28
何人来此 在职认证  发表于 2022-6-13 22:06:02 |只看作者 |坛友微信交流群
我们推断选择avalue N≥ 如果我们想要满足这两个标准,4是必要的:拒绝使用正确模型的建模者的结果的概率小于6%,以及接受使用错误模型的建模者的结果的概率小于30%(即70%以上的幂)。更详细地考虑不同的测试,该表显示,对于皮尔逊测试,最好的选择是设置N=4;如果使用500个值,可以考虑设置N=8。采取更多的阈值往往会导致规模过大的测试,这些测试拒绝oracle的次数超过了应有的数量,而且拒绝优秀的建模者的次数也超过了监管人员的意愿。就N的选择而言,Nass测试再次非常稳定:大小基本正确,优秀建模者的拒绝率很少超过6%(除非在某些情况下N=250和N≥ 32). 为了获得拒绝较差建模者的高功率,选择N=4或N=8似乎是合理的,这导致拒绝率与Pearson相当或优于N值相似的Pearson。LRT在尺寸和良好建模者的拒绝率方面也非常稳定;我们注意到,表5中的样本量始终为n=1000,我们仅检测到表3中最小样本n=250中LRT大小的实际问题。此外,对于大多数N值,我们可以获得比Nass或Pearson更高的功率,以拒绝糟糕建模者的不良结果。注意,对于n=250,当真实的基础分布为Student t5时,我们需要n=8来拒绝选择概率高于70%的正态分布,当n=1000时,我们需要n=16;其他的测试都是为了获得这种能力。对于行业建模者,对于样本量n=250,测试开始暴露n>4的行业建模者的不可靠性。

使用道具

29
何人来此 在职认证  发表于 2022-6-13 22:06:05 |只看作者 |坛友微信交流群
这是意料之中的,因为尾部没有足够的点来精确估计更多的极值。理想情况下,我们希望行业建模人员能够暴露在这种情况下,因此这是选择N相对较高的参数。增加nto 500改善了经验分位数估计的情况,前提是我们不考虑太大的N值。当将级别数设置为N时,我们获得了良好的绿色测试结果≤ 皮尔逊检验为8,N≤ 16用于其他测试。随着经验分位数估计成为更可行的分位数估计方法,进一步增加n=1000(或四年的数据)会导致行业建模者的拒绝率进一步降低。总之,很明显,取N的值≥ 4给出了可靠的结果,优于N=1或N=2时获得的结果。仅使用一个或两个定量估计值似乎不足以区分轻尾和重尾,也不足以预先构建基于N VaR水平的预期短缺的隐式后验,Kratz et al.(2016)中已经指出了这一结论。3.3动态回溯测试实验这里的回溯测试设置与第3.2节中使用的类似,但实验是在时间序列设置中进行的。损失的真正数据生成机制是带有学生创新的静态GARCH模型。我们选择模拟来自具有学生t创新的GARCH(1,1)模型的数据;通过将该模型与2000年至2012年期间的标准普尔指数日志收益(3389个值)进行拟合,选择了参数。

使用道具

30
能者818 在职认证  发表于 2022-6-13 22:06:08 |只看作者 |坛友微信交流群
标准符号中GARCH方程的参数为α=2.18×10-6,α=0.109和β=0.890,而学生创新分布的自由度为ν=5.06.3.3.1实验设计各种预测者使用不同的方法来估计每个时间点的损失的条件分布,并提供VaR估计。如第3.2节所述,回溯测试的长度为n=1000(约4年),每个预报员都使用一个滚动的数值窗口进行预测。我们考虑值n=500和n=1000;这些窗口长度比静态后验研究中的窗口长度长,因为通常需要更多的数据来可靠地估计GARCH模型。所有模型每10个时间步重新估计一次。该实验重复500次,以确定每个连铸机的拒收率。下面列出了考虑的不同预测方法;有关方法学的更多详细信息,请参阅McNeil等人(2015)第9章。预言家知道正确的模型及其精确的参数值。加什。t: 预报员估计了正确的模型类型(带有t创新的GARCH(1,1))。请注意,他不知道自由度,也必须估计此参数。加什。HS:预报员使用GARCH(1,1)模型来估计损失的动态,但对残差应用经验分位数估计来估计创新分布的分位数,从而估计条件损失分布的分位数;这种方法在实践中通常被称为过滤历史模拟。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-9-28 03:55