楼主: 大多数88
1926 95

[量化金融] 什么使资产有用? [推广有奖]

41
大多数88 在职认证  发表于 2022-6-10 05:19:58
负偏度或过度峰度),平均零高斯VAR(p)不再是最大熵最优的,因为高斯过程的高阶矩完全由其前两阶矩决定,因此高斯VAR(p)没有足够的自由度来独立处理二阶和高阶约束。3.5. 扩大增量多元化估计3.5.1。可伸缩性问题的来源如前所述,我们提出的所有三种方法都是用来估计Rn值平稳遍历过程的差异熵率,但其尺度与维数n的关系很差。这并不奇怪,因为反映过程中每单位时间的信息总量的h({zzzt})应该考虑到可能的冗余交叉坐标,因此,somehow应该跟踪{zzzt}的每个坐标过程与所有其他坐标过程的关系。这通常是通过n×n矩阵来完成的,我们需要计算其中的行列式或逆矩阵,以便了解坐标过程如何偏离i.i.d.情况。这导致了立方时间复杂度和平方内存需求,这对于大n来说是切实可行的。在非参数情况下,n×n矩阵是任何频率下谱密度函数的值,在最大熵情况下,n×n矩阵是协方差矩阵Cov(zzzt,zzzt),需要评估∑pand的左上角,而不考虑最大熵自方差约束p的数量。无模型方法不能直接解决此问题,因为离散化步骤有效地将多变量问题转化为非单变量问题,代价是增加所产生的离散化过程的离散熵率。

42
能者818 在职认证  发表于 2022-6-10 05:20:01
然而,在最佳情况下,这种熵增加对计算固定估计精度的资源需求的影响实际上比非参数和最大熵方法的局限性更严重。为了了解原因,让我们进行一次后包络计算,以估计在最佳情况下,需要多少样本才能可靠地估计平稳随机过程的离散熵率,该过程在一个有限概率中取值。让我们表示基本真值离散熵率。理想情况下,字母表中的每个字符应该至少出现在我们的示例中一次。当样本均匀地从字母表中抽取,并且在时间上独立时,最小样本量就会出现这种情况。在这种情况下,如果我们将α表示为字母表中任何符号出现的概率,那么α=2-H、 我们需要看到的所有字符的最小样本量是T=α=2H。换言之,正如阿鲁尔的经验,有希望合理估计平稳过程的离散熵率所需的样本数与真实熵率呈指数增长。在无模型方法中,如果坐标过程恰好是独立的或松散相关的,则离散化过程的熵率将随维数n线性增长,因此,保持估计精度恒定所需的样本数将随n呈指数增长。这比最大熵和非参数方法更糟糕,因为无模型方法的时间复杂度在样本大小上是线性的,为获得固定的估计精度,它随资产数呈指数增长。缺乏可伸缩性的根本原因是缺乏一个结构化模型来表达{zzzt}的协调过程如何相互关联。例如,可以通过降维技术(例如。

43
能者818 在职认证  发表于 2022-6-10 05:20:05
PCA和内核PCA【14】、GP-LVM【15】、自动编码器【16、17】、manifoldlearning【18、19、20】等)。我们不遵循这个想法,因为它对所使用的维度还原技术非常敏感,并且大多数都有自己的可伸缩性问题。我们选择放松这一隐含要求,即我们应该了解每项资产与所有其他资产的关系。3.5.2. Order-q增量Diversitionlet 0≤ q≤ n和ππqbe{1,…,n}划分为大小为k的子集,其中k=q,对于分区中除atmost 1元素以外的所有元素。设{yt}是与Rn值过程{xxxt}联合遍历平稳的重值离散时间过程。根据互信息的标准结果,对于分区的每个元素πππiqi{yt};{xxxt})≥ I({yt});xxxt公司ππiq,哪里xxxt公司ππiq是向量值过程,其中协调过程是{xxxt}的过程,其指数为πππiq。因此,表示∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏∏≥ Iq({yt};{xxxt}),(42),其中Iq({yt};{xxxt})=最大ππq∈∏∏∏qmaxπ∏iq∈πππ气{yt};{xxxtππiq}.当{yt}表示新资产的收益时间序列,而{xxxt}表示参考池中资产的收益时间序列时,1/Iq({yt};{xxxt})反映了新资产添加到参考池中q资产的任何子集的增量差异最小。定义3.3。我们表示order-q增量多元化新资产a添加到参考池P中,增量多元化a添加到P的大小q的子集中的最小数量,即IDQ(a;P):=minPq∈PqID(A;Pq),(43),其中Pq是大小为q的P的所有子集的集合。根据等式(42),正如我们预期的那样,如果新资产未向referencepool中q资产的任何子集添加增量差异,则不会向参考池添加增量差异。

44
能者818 在职认证  发表于 2022-6-10 05:20:08
此外,很容易看出iq({yt};{xxxt})是q的递增函数,在({yt};{xxxt})=I({yt};{xxxt})。对于q<n,差值({yt};{xxxt})- Iq({yt};{xxxt})反映了只能通过一次考虑超过q个资产从ReferenceTool获得的有关新资产的信息量。作为增量多元化的衡量标准,IDq(a;P)满足了在帕西性约束下的程式化事实1和2,即最佳复制投资组合的非零配置不超过q。IDq(A;P)也满足了程式化事实3,前提是新资产的回报不取决于参考池中超过q资产的当前和过去回报。至于风格化4,它总是由IDq(A;P)来表示,因为根据等式(42)的不等式,如果ID(A;P)允许经理多元化,那么任何q的IDq(A;P)也是如此。IDq(A;P)也很容易满足风格化事实5。我们记得,我们用来确定一项资产是否会向参考池中增加增量多元化的指导原则是,如果使用参考池中的资产和要素很容易复制新资产的回报,那么就不需要新资产。然而,在实践中,如果复制新资产所需的资产数量非常大,那么认为新资产在某种程度上有用并不牵强。事实上,试图用大量现有资产复制新资产可能会导致过高的运营成本(例如交易成本、卖空借款、跟踪定位错误导致的下滑等)。

45
nandehutu2022 在职认证  发表于 2022-6-10 05:20:11
从这个意义上说,虽然我们引入了有序q增量多元化来扩大推断,但q可以被视为一个稀疏因子,选择它来反映投资经理认为实际使用的最大数量的资产,以复制具有他/她已经拥有的资产和因素的候选新资产,作为直接交易新资产的替代方案。可伸缩性:估计最大ππiq∈πππ气{yt};xxxt公司ππiq使用无模型方法、非参数方法或最大熵方法均与资产数量呈线性关系。我们没有将{1,…,n}的所有可能分区的最大值取到sizeq的子集中(这很难处理),而是选择随机抽样较少数量的分区,并在抽样的分区中取最大值。一旦对分区进行了采样,就可以计算I{yt};xxxt公司ππiq可以并行执行,并且可以使用map reduce高效地计算double-max。算法4.3.6对此进行了总结。对新资产池的扩展我们量化增量多元化的方法可以扩展到量化多元化的数量——新资产的总体AAA=(a,…,Ap),对于这些新资产,没有任何资产是由其他资产完全决定的,共同添加到参考资产池中。如果我们表示{yyyy}:={(yt,…,ypt)},p>1新宇宙AAA中资产回报的向量值时间序列,以及{xxxt}现有资产参考工具的回报和因子值的时间序列,那么新宇宙资产增加到现有oneisID(AAA;p)的差异量:=I({yyyyy};{xxxt})(44)=h({yyyyyy})+h({xxxt})- h({xxxt,yyyyy}),可以使用以前建立的结果计算。3.7.

46
kedemingshi 在职认证  发表于 2022-6-10 05:20:14
说明在本节中,我们以实证的方式说明了增量多元化衡量指标的相关性,以及之前讨论的估计方法。我们首先对无模型、非参数和最大熵方法进行了比较分析。然后,我们实证说明,我们选择的有限样本估计方法,即最大熵估计,与所有5个典型事实一致。最后,我们将我们的增量多元化衡量方法应用于实际财务数据,首先比较两两增量多元化和两两相关性,然后调查跨资产类别的信息聚类。3.7.1. 模型比较我们首先从实值时间序列开始,比较我们为估计合成数据的不同熵率而提出的三种方法。n=1n=1n=1,不同的TTT:为了评估我们的三种方法在记忆性和轻感性存在的情况下的表现,我们考虑了一个带有Student-t噪声的AR(1)时间序列,命名为yt=yt-1+ξt,(45),其中ξ是标准偏差为1的Student-t白噪声,自由度ν。我们从合成模型中生成了两条大小为2000的样本路径,其中一条路径选择ν,以使创新项具有有限的峰度(ν=4),另一条路径的创新项几乎是高斯的(ν=100)。在每次模拟中,我们使用之前在第一次T观察中描述的100的无模型、非参数和最大熵方法估计基本过程的熵率≤ T≤ 2000年,我们在图(2a)和(2b)中将相对误差绘制为T的函数。对于非参数估计,我们使用Welch方法[27]获得了谱密度的估计,该方法具有汉宁窗,窗大小等于100,重叠50%。

47
mingdashike22 在职认证  发表于 2022-6-10 05:20:17
对于无模型方法,我们将m设置为2-misequal为样品标准偏差的1/5。至于基本事实,我们记得,任何自回归过程的微分熵率都是其创新项的微分熵率h({ξt}),并且通过创新过程的时间独立性,它也等于任何观测值h(ξt)的微分熵率,这对于学生-t分布是可用的闭合形式。总的来说,可以看出这三种方法都是一致的。正如预期的那样,最大熵和非参数方法(它们是唯一假设高斯性的方法)都收敛到高斯AR(1)过程的熵率,该过程具有与我们的Student-t AR(1)过程相同的平均值和自方差函数。有趣的是,即使我们的合成模型的剩余峰度不确定,最接近的高斯(1)模型的熵率也只高出6%。换句话说,我们在最大熵估计中通过丢弃四阶矩所产生的误差不超过6%(在这一系列示例中),这是在有限四阶矩的极端情况下达到的。这两种高斯方法具有几乎相同的性能,但最大熵方法的实现比非参数方法简单得多,而且也是最快的,尽管两者都具有线性时间复杂度。另一方面,无模型方法总是收敛于地面真值,即使多余峰度是有限的。事实上,对于给定的样本大小T,当多余峰度较大时,无模型方法会更快收敛,这是可以理解的,因为这对应于较低的入口速度;通常,熵率越高,无模型方法平均需要的样本越多,以达到相同的估计精度。

48
可人4 在职认证  发表于 2022-6-10 05:20:21
当T<500时,一个好的经验法则是避免单变量时间序列的无模型方法。总之,它比最大熵法更灵活,定义为估计熵率减去真实熵率除以真实熵率的绝对值,并以百分比表示。提示:h({yt})=h(yt | yt-1, . . . ) =h(yt | yt-1.年初至今-p) =E(h(yt |)(yt-1.年初至今-p) =*)在单变量情况下,就估计差异熵率而言,非参数方法不会增加太多。至于在单变量情况下,人们应该选择无模型方法还是最大熵方法,当数据稀缺时,人们应该始终选择最大熵方法,但当数据丰富时,人们应该选择无模型方法。事实上,这种观点可以推广到许多估计问题上——当数据质量很好时,我们应该始终谦逊地假设什么是世界的“真实”模型,而让数据说话。然而,当缺乏高质量的数据时,必须将精心起草的先验结构作为推理的一部分。变化nnn,固定TTT:接下来,我们考虑实证研究我们的三种方法的准确性,以估算具有n维的Rn值离散时间平稳遍历过程尺度的差异熵率。为此,我们生成了一个Rn值过程{zzzt}的T=2000个样本,其坐标过程是独立的,并且每个都遵循方程(45)的Student-T AR(1)微分,对于不同的n。对于每个n,我们使用无模型方法、非参数方法和最大熵方法估计相应样本的微分熵率。

49
能者818 在职认证  发表于 2022-6-10 05:20:24
结果如图(3a)、(3b)和(3c)所示。从图(3a)和(3b)中可以看出,无模型方法的数据效率非常高,对于样本量T,不应超过n=3≤ 这与我们之前的后包络分析一致,后包络分析建议样本量应随n呈指数增长,以在无模型方法中保持固定的估计精度。为了便于分析无模型方法的性能,我们还在图(3a)中绘制了使用作为估计器logT的性能- mn,这是当离散样本中的所有特征都不同时,我们期望无模型估计器(方程(76))退化为的值,这将发生在样本大小T对于维数n和/或精度m不够大的情况下。从图(3a)可以看出,无模型方法的行为确实受gt的误差控制- mn进一步证实了样本大小T=2000,但在n=3之外,mn是不足的,至少当选择m时,离散化精度-mis等于最小样本stan(a)ν=4(b)ν=100的1/5。图2:估计AR(1)过程的熵率,其中Student-t噪声具有ν自由度,选择标度参数以使创新过程为单位标准偏差,对于样本大小t。对于估计值^h,地面真实度,相对误差定义为100* (^h- h) /| h |。精确(高斯)对应于使用具有相同系数和单位新息标准差的高斯AR(1)的熵率作为估计值^h。对于非参数估计,我们使用Welch方法[27]获得了谱密度的估计,该方法具有汉宁窗、窗大小等于T/20、重叠50%。

50
能者818 在职认证  发表于 2022-6-10 05:20:27
对于无模型方法,我们将m设置为2-mis等于样品标准偏差的1/5。(a) 所有3种进近(b)均放大(n≤ 5) (c)高斯方法图3:坐标过程独立的Rn值随机过程的熵率估计,每个过程遵循AR(1)过程,其中Student-t噪声的ν=4个自由度,选择尺度参数,使创新过程为单位标准偏差。样本量为T=2000。对于估计值^h,地面真值h,相对误差定义为100* (^h- h) /| h |。精确(高斯)对应于使用具有相同协方差函数的平均零高斯过程的熵率作为估计值^h。对于非参数估计,我们使用Welch方法[27]获得了光谱密度的估计,该方法具有汉宁窗,窗大小等于100,重叠50%。对于无模型方法,我们将m设置为2-mis等于协调过程中最小样本标准偏差的1/5。跨坐标过程的标准偏差。然而,答案并不是要降低离散化精度,因为当2-misvery small(见推论3.2,方程式(31))。对于非参数和最大熵方法,它们的精度随维数n(大致)线性下降。然而,与一维情况不同,在多维情况下,最大熵方法比非参数情况下的数据效率要高得多,并且两者之间的差异随维数n而增大。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-23 08:54