楼主: mingdashike22
1102 41

[量化金融] 聚类移动函数中值在层次结构鲁棒预测中的应用 [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-6-1 12:03:16
例如,在我们的互联网服务(门户网站)的经验示例中,我们计算了四个子服务(以下简称SS、SS、SS和SS)中的每一个子服务在n时刻的功能中值,该中值来自长度为k的移动窗口,与功能深度GBD相关,并替换为:^xSSin+1(t)=MEDGBD{xSSin(t),xSSin-1(t)。。。,xSSin公司-k+1(t)},其中i=1,2,3,4。在第二步中,我们计算层次结构中最低但只有一个层次的相关功能中介的总和,在第一步中的节点的相应时刻计算。我们重复向上移动层次结构的第二步,直到计算层次结构顶层的功能中介的总和。在我们的实证例子中,第二步是最后一步,最后我们得到了n=k。。。,365^xn+1(t)=Xi=1^xSSin+1(t)。(3.1)注意,得到的函数中值和不一定等于相应函数和的函数中值。即使对于构成层次结构的自然数序列,这种等式也不成立。让我们在最底层取两个结x=(0,1,1)和x=(1,0,1),在层次结构的第二层和等效顶层取x+x=(1,1,2)。下面的语句是trueMED{(1,1,2)}=1 6=2=MED{(0,1,1)}+MED{(1,0,1)}。通常,我们得到MED{(x,…,xm)+(y,…,ym)}6=MED{(x,…,xm)}+MED{(y,…,ym)},(3.2),其中xind-yi是数字。

12
mingdashike22 在职认证  发表于 2022-6-1 12:03:19
性质(3.2)不是等数集的函数平均数,如果存在函数人,则等式显然成立。因此,在计算上层预测的过程中,以及因此在向上聚合所考虑的层次结构的功能中介的过程中,考虑数据的层次结构。将同一层次上的单个功能观察从一个结转换为另一个结可以很容易地改变结果(见不等式(3.2))。当等级结构相当丰富时,事实就更加明显了。显然,得到的功能中介之和(3.1)并不一定等于所有功能组合的功能中介之和。3.1不确定性评估一般而言,据作者所知,HFTS设置中的不确定性评估仍然是一个悬而未决的问题。据我们所知,对于浓度带的确定问题,没有令人满意的理论解决方案。Aue等人(2015)[2](见文章第5.2节)在论文中提出了一种确定统一预测带的算法。他们利用整个样本的样本功能主成分(FPC)计算残差。然后计算残差的置信区间。假设残差近似为系统平稳,则确定预测带。认为产生较小预测带的预测方法更好。Shang和Hyndman(2017)[35]采用Aue et al.(2015)[2]的方法计算均匀和逐点预测区间。然而,Aueet等人。

13
nandehutu2022 在职认证  发表于 2022-6-1 12:03:22
(2015)计算了残差的标准差,然后构建了最终置信区间,而Shang和Hyndman(2017)通过替换进行采样,以获得一系列自举预测误差,然后构建了最终置信区间。类似地,Shang(2018)[36]指出,重抽样方法,尤其是自举法,是估计函数估计器相关变异性和构建适当置信区间的唯一实用方法。主成分得分(PCS)通常被认为是原始函数时间序列的替代品,因此PCS模仿了原始FTS的依赖结构。因此,将功能时间序列转换为一维PCS序列族,然后使用Vinod和de Lacalle[40]的Maximumentry bootstrap方法,在其meboot R包中实现[36]。这是对问题的一种很有吸引力的简化,但它肯定会剥夺研究人员在分析的功能时间序列上的大量信息。因此,在[26](另见[38])之后,我们建议使用功能箱线图和调整后的功能箱线图,其中箱的大小和α-考虑中部地区。通过这种方式,实现了预测不确定性近似评估函数时间序列的相关引导的思想。与Aue et al.(2015)的方法类似,我们认为产生更窄α的预测方法-中部地区更好。或者,功能性时间序列预测“有效性”的比较可以在这些中心区域作为α函数的扩展速度比较的整个过程中进行(比例曲线,见[26])。4我们建议的性质4.1单节点预测的无偏性让我们考虑层次结构最底层节点中的i.i.d.函数观测。

14
可人4 在职认证  发表于 2022-6-1 12:03:25
请注意,不建议考虑预测值的逐点特性。此外,它们始终取决于方程(1)或(2)中的数据驱动间隔A(x;xi,xi)或CI(x;xi,xi),分别在计算MBD或GBD深度时考虑这些间隔。我们通常不知道L[0,T]空间上的真实分布,我们的数据来自于此,因此我们甚至不能直接假设函数平均值确实存在。因此,考虑到通常平均偏差的功能计数器部分,我们认为不合适。然而,如果估计量对于层次结构底层的节点是平均无偏的,那么对于层次结构高层的节点是平均无偏的。点态无偏性可能会忽略曲线的重要特性,似乎是更糟糕的解决方案。相反,我们将注意力集中在媒体无偏见上。在布朗的论文中,一维设置的思想被重新激活了【4】:如果对于固定的参数值,估计分布的中位数在参数值上,则参数的估计是无偏中值的。换言之,这一估计经常高估,而低估了。Pfanzagl【31】考虑了最优中值无偏估计量,Pfanzagl【30】检验了中值无偏估计量的渐近有效性。在所考虑的功能设置中,选择功能深度,然后可以计算该深度引起的中值。请注意,相对于选定功能深度计算的功能中值本质上是一个中值无偏估计器(相对于相同功能深度的中值)。

15
大多数88 在职认证  发表于 2022-6-1 12:03:28
与函数平均值的存在相反,由常用深度诱导的函数中值存在于一类广泛的过程中。4.2 ConsistencyMosler和Polyakova【27】指出,他们的Φ-深度(被认为是广义带深度,显然不属于这一类)与数据生成概率模型没有明显的关系,也没有直接可用的一致性或其他渐近结果。幸运的是,Gijbels和Nagy\'sarticle[7]中给出了基于带深度的中值估值器的一致性,作者解决了非积分深度类估值器(我们的估值器不属于他们论文中考虑的类别)与调整带深度的一致性问题,从而有可能保证一致的一致性结果。然而,我们使用López Pintado和Romo的修正带深(MBD)和López Pintado和J"ornsten的广义带深(GBDI)来定义聚合中值估值器。在一些合理的假设下,Nagy等人[28]最近证明了当移动窗口长度变细时,MBD的一致性。粗略地说,一元函数深度x(t)w.r.t可以计算出给定概率对应的边际分布。之后,我们可以计算单变量深度(D)的平均值,作为x的积分深度。精确地,遵循Nagy等人[28](见其定义2.3,第100页)的p∈ P(C([0,1]),是可测空间上的概率测度(Ohm, F) ,对于连续函数x∈ C([0,1]),函数的积分深度x w.r.t.P,由公式D(x;P,D)=ZD(x(t),Pt)Du(t)定义。为了证明GBD确实属于Nagy et al.的综合功能范畴。

16
kedemingshi 在职认证  发表于 2022-6-1 12:03:31
[28],按照作者的符号,让我们考虑J=2的单变量深度,正如我们在(2)中考虑的那样,只有受两个函数限制的带。也让v∈ R和Q∈ P(R)是实数R上所有概率测度的集合,设独立随机变量V,V~Q、 我们用公式dgbd(v;Q)=P定义一个单变量深度v∈ [最小{V,V},最大{V,V}]·1CI(V;V,V).为了证明(2)定义的GBD确实属于综合功能深度,我们需要验证属性(D)- (D) ofNagy等人[28]对于实值函数(K=1被替换)DGBD,假设度量Q是绝对连续的。但是,我们将其较弱的条件(DW)替换为下面条件列表中的条件(D)。这些性质是:(D)A ffne不变性:对于任何非零A∈ R、 对于任何b,v∈ R和V:D(V;QV)=D(Av+b;QAV+b)。(D) 中心极大值:如果V的分布是半空间对称的*∈ R、 然后D(v;QV)在v处达到最大值*.(D) 沿射线递减:如果在v处达到最大深度D*∈ R、 然后每v∈ R和γ∈ [0,1]下列不等式成立d(γv*+ (1 - γ) v;Q)≥ D(v;Q)。(D) 在单位消失:lim | v|→∞D(v;Q)=0,其中| v |表示D作为v函数的R.(D)上半连续性上的欧氏范数:对于所有v∈ R和Limδ→∞vδ→ v以下公式保持SLIM supδ→∞D(vδ;Q)≤ D(v;Q)。(D) D作为Q函数的弱连续性:对于所有Qδw-→ Q、 如果δ→ ∞以下公式适用于SSUP | | v||∈R | D(v;Qδ)-D(v;Q)|-→ 0,如果δ→ ∞.(D) 可测量性:映射D:R×P(R)→ [0,1]:(v;Q)7→ D(v;Q)是Borel可测量的,D(·;Q)6≡ 0表示所有Q∈ P(R)。备注1:属性(D),即a ffne不变性,是微不足道的。引理:如果Q是绝对连续的,则对单变量GBDDepth不满意。证据我们遵循Nagy等人的思路。

17
能者818 在职认证  发表于 2022-6-1 12:03:34
【28】定理A.11调整为所考虑的单变量DGBDdepth。设F是测度Q的连续分布函数∈ R我们有dgbd(v;Q)=Pv∈ [最小{V,V},最大{V,V}]·1CI(V;V,V)== 1.- P五/∈ [最小{V,V},最大{V,V}]·1CI(V;V,V)== 1.- Pv≤ 最小{V,V}·1CI(V;V,V)∨ v≥ 最大{V,V}]·1CI(V;V,V)== 1.-F(v)+(1- F(v)).因此,DGBD(v;Q)在F(v)=时达到其最大值,即在Q的中值处。由于这是一维分布,它是围绕中值对称的半空间(见Nagy et al.【28】p.98)。备注2:如果度量Q是绝对连续的,那么按照定理1的证明线,我们得到(D)是满足的。属性(D)和(D)也是满足的(见López Pintado和Romo[25],定理1)。备注3:由于我们的DGB是Nagy et al\'s DBdepth的受限版本(详情请参见[28]),那么假设Q是绝对连续的,并且遵循他们的定理a.10和a.12,我们分别得到了性质和D。现在,我们利用他们的评论A.14指出,我们基于GBD的估计器是一个强大的通用一致性估计器((sC)在Nagy等人【28】中),在层次结构的底层。备注4:对于基于MBD的中值估计,在相同的合理条件下,也获得了每个层次的任何节点的一致性性质。这一次,这是Nagy等人第28条(见第121页第a.3小节和第123页备注a.14)中证明的直接结果。备注5:在所考虑的层次结构中,每个非底部节点的随机变量是以下节点的随机变量之和,那么基于函数中值的估计器对于层次结构的任何级别的节点都是一致的。我们对统计推断的进一步兴趣是从函数样本中导出的量。

18
大多数88 在职认证  发表于 2022-6-1 12:03:37
有趣的是函数样本深度的最大化子,问题是对于大样本量n,这个最大化子是否接近于函数深度函数的总体版本的最大化子集。我们使用Nagy等人的研究【28】(见第4.2节)获得了应用功能介质关于GBD和MBD的存在性、可测量性和连续性。GBD和MBD深度的样本版本也非常一致(见备注A.14,第123页)。图1:被0%、10%、25%和45%形状异常值污染的数据的函数箱线图。4.3稳健性和“有效性”尽管Shang和Hyndman的方法优雅且在概念上很有吸引力,但事实上,它在很大程度上取决于应用于主成分得分序列(fts R包)的非常有效但非稳健性的一维时间序列方法和负责预测调节的预测非稳健性离散矩阵。虽然人们可以使用一些稳健的替代方案来为其方法的非稳健构建块轻松地对其方法进行稳健化,但我们放松了其数学优雅性,并显著增加了其计算复杂性(即使没有任何修改,其计算复杂性也非常高)。我们的方法对异常值的鲁棒性并不严重依赖于函数异常值的类型,这似乎令人惊讶,正如我们所预期的那样,函数形状异常值、函数振幅异常值和函数异常值在协方差结构方面应该有所不同。我们已经进行了几次模拟,但为了介绍我们的方法,在此我们展示了对100次高斯过程观测进行的一些模拟,平均值等于u(t)=sin(4π·t),协方差函数C(s,t)=α·e(-β| s-t |)=0.2·e(-0.8·| s-t |)。

19
kedemingshi 在职认证  发表于 2022-6-1 12:03:39
污染来自高斯过程的外围观测,平均值为uC(t)=sin(2π·t+π/2),协方差函数等于C(s,t)。图2:左侧为受10%形状外围观测污染的数据,右侧为受10%形状外围观测污染的数据的异常值图。MBD中值的稳健性通过以下图表进行目视评估。数据被0%、10%、25%和45%的形状因子所污染。图1显示了被0%、10%、25%和45%形状异常值污染的数据的函数箱线图。图2和图3显示了受10%和45%形状边缘观测以及数据异常图污染的数据。值得注意的是,Arribas Gil andRomo[1]引入的用于检测形状异常值的异常值图,在外部异常值的数量约为45%时效果不佳。然后,outliergram停止检测与形状相关的异常值。包含OutleGram的图形是使用roahdR包(见[38])绘制的,功能箱线图是使用DepthProc R包(见[17])绘制的,尽管获得outliergramin DepthProc也很简单。考虑到对于固定α,α的体积-中央区域可被视为一种分散度度量标准【23】,比较功能方框图是比较“有效性”的有效方法(见图9)。功能性时间序列预测“有效性”的比较可以通过α体积的比较来进行-中心区域或这些区域的扩展速度作为α的函数(比例曲线,见图3:左侧受45%形状边缘观测污染的数据,右侧受45%形状边缘观测污染的数据的离群图。[26])。

20
mingdashike22 在职认证  发表于 2022-6-1 12:03:42
我们认为,这种从多元情况下获得的完全非参数和无矩的数据分析方法是函数情况下的最佳解决方案,在函数情况下,对数据生成过程进行合理的假设往往是可疑的(在L[0,T]空间中没有勒贝格测度类似物)。4.4计算复杂性为了将我们的提案的计算复杂性与Shang和Hyndman的提案进行比较,我们考虑了与互联网服务(webportal)昼夜监控相关的经验功能时间系列,该系列分为四个子服务(更多详细信息,请参阅第6节)。监测时间为2015年的365天。换句话说,在开始时,我们认为数据集由五个矩阵组成,每个矩阵的维数为365×24。为了比较两种预测方法,我们考虑了基于长度为10的移动窗口的预测。使用Shang和Hyndman方法计算预测的时间为37-38min,而使用拟议的聚合中值方法计算预测的时间约为2-3min。在这两种情况下,我们使用了相同的软件和硬件环境(WIN10、mobile intel I7、16GB RAM)。请注意,Shang和Hyndman的【35】和Hyndman等人【12】指出了他们的方法在稀疏设计矩阵中应用广义最小二乘法的某些不便之处。他们列出了对这些不便的一些理论上有趣的补救措施。我们认为,这些补救措施对于互联网数据流的分析是不够的(详情见【16】)。5在时间相关数据的情况下,我们对FDA程序性能的模拟研究仍然是一个开放的、深入研究的问题[9,33]。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-27 02:05