楼主: nandehutu2022
1600 37

[量化金融] 统计行业分类 [推广有奖]

21
何人来此 在职认证  发表于 2022-5-25 10:37:45
我们没有生存偏差,因为我们采用了截至2014年9月6日在http://fifinance上有历史定价数据的股票市场数据。雅虎。2008年8月1日至2014年9月5日期间的com(于2014年9月6日访问)。我们将此范围限制为所谓的“延迟-0”α:相同的价格,即POI(或调整后的PAOI),用于计算预期回报(通过Eis)和确定融资价格。在实际应用中,通常根据市值、流动性(ADDV)、价格和其他(专有)标准选择流动性股票的交易范围。仅包括自2014年9月6日起在美国上市的普通股和类别股(无OTC、优先股等),以及BIC(彭博行业分类系统)部门分配。然而,正如(Kakushadze,2015a)第7节中详细讨论的那样,生存偏差并不是此类回溯测试的主要影响因素。4.3回溯测试我们在5年的时间内进行模拟(更准确地说,从2014年9月5日开始,共1260个交易日)。年化资本回报率(ROC)计算为日均损益除以日内投资水平I(无杠杆),再乘以252。年化夏普比率(SR)计算为每日夏普比率乘以√每股252美分(CPS)的计算方法是以美分(非美元)为单位的总损益除以总交易股份。4.4优化的Alpha优化的Alpha基于我们正在测试的统计行业分类,通过使用异质风险模型(Kakushadze,2015b)通过Sharperatio最大化优化的预期回报。我们每21个交易日计算一次异质风险模型协方差矩阵Γij(与宇宙相同)。

22
何人来此 在职认证  发表于 2022-5-25 10:37:50
对于每个日期(我们省略指数s),我们根据美元中性约束条件,最大化夏普比率:s=PNi=1HiEiqPNi,j=1ΓijHiHj→ max(17)NXi=1Hi=0(18)在没有边界的情况下,解由hi=-η“NXj=1Γ-1ijEj公司-NXj=1Γ-1链接,l=1Γ-1klepnk,l=1Γ-1kl#(19)为了简化各种比较(包括结果),有意将回溯测试窗口的选择与(Kakushadze,2015b)中的选择完全相同。在这里,我们关注的是相对表现优异的情况,可以合理地假设,按照领先顺序,个人表现受到生存偏差的影响大致相等,因为所有Alpha和风险模型的构建都是“统计”的,对整个宇宙都不感兴趣。在(Kakushadze,2015b)中,BICS用于行业分类。在这里,我们只是插入统计行业分类,而不是BIC。在单级行业分类的情况下,我们可以添加由“市场”组成的第二级,以N×1单位矩阵作为负荷矩阵;或者,等效地,我们可以使用选项mkt。fac=R功能qrm中的T。(Kakushadze,2015b)附录B中的het(),其内部实现了这一点。其中Γ-1是Γ的倒数,η>0(平均回归α)通过(我们在回溯测试中将投资水平I设置为2000万美元)NXi=1 | Hi |=I(20)确定。请注意,(19)满足美元中性约束(18)。在我们的回溯测试中,我们在夏普比率最大化中施加头寸界限(在这种情况下,与策略完全在日内相同的误入界限):| His |≤ 0.01 Ais(21),其中Ais添加在(16)中定义。

23
nandehutu2022 在职认证  发表于 2022-5-25 10:37:54
在边界计算Hirequiresan迭代程序存在的情况下,我们使用(Kakushadze,2015b)附录C中的R代码。4.5模拟结果表1总结了K=100、K=30和K=10的“自下而上”三级统计行业分类的11次独立运行的模拟结果(见第3.3.1小节)。令人高兴的是,尽管基本的k-meansalgorithm具有不确定性,但回溯测试结果非常稳定。表2总结了“自下而上”单级统计行业分类的11次独立运行的模拟结果,基于100个样本的聚合,目标聚类数K=100(因此,最终聚类的实际数量kc可能小于K–见第3.3.3小节)。同样,回溯测试结果非常稳定。表3总结了“自下而上”3级统计行业分类的23次独立运行的模拟结果,基于100个样本的聚合,目标聚类数K=100、K=30和K=10(因此结果聚类的实际数目Ku可以小于Ku,u=1、2、3–见第3.3.3小节)。前15次(共23次)符合标准。cl.ret=F(这对应于第3.3.1小节方程式(10)后的选项(i)),而其他8次运行对应于音调。cl.ret=T(这对应于所述等式后的选项(ii));参见功能qrm。统计索引类。所有()见附录A。上述稳定性也适用于这些情况。表4总结了通过汇总100个样本获得的统计行业分类中的实际集群数量。如表3所示,三级层次结构中的目标聚类数为K=100、K=30和K=10。表5总结了“自上而下”三级统计行业分类的模拟结果,这些分类是通过每次运行中的一次采样获得的,每运行三次。

24
mingdashike22 在职认证  发表于 2022-5-25 10:37:58
3矢量Lu,u=1,2,3,在第3.3.4小节中定义。回想一下,在第0个近似值中,最粒度级别1的簇数isK=LLL;然而,由于第3.3.4小节中解释的原因,实际值可能较低。我们在这里也看到了实质性的稳定。表6总结了“自上而下”三级统计行业分类的模拟结果,通过在每次运行中聚合100个样本获得,每个Lu运行3次。稳定性依然存在。从以上结果可以明显看出,平均聚合多个采样可以提高性能和稳定性。此外,毫不奇怪,降低粒度会恶化夏普比率。三级分类优于单级分类。如上所述,clusteringbRis=Ris/σi优于clusteringeRis=Ris/σi,这反过来又优于聚类Ris。因此,基于单次抽样的聚类风险,对K=100、K=30和K=10的“自下而上”三级分类进行随机运行,产生了ROC=41.885%、SR=15.265和CPS=1.889的典型表现(参见表1)。基于聚类分析(Clusteringeris)的“自下而上”三级分类(K=100、K=30和K=10)的随机运行产生了典型的表现,ROC=42.072%、SR=15.840和CPS=1.973(参见表1)。与基于不确定性k均值的算法相比,松弛算法(第3.3.5小节)是完全确定性的。我们使用附录C中的代码运行它,以获得一个三级分类,目标数为clustersK=100、K=30和K=10(与“自下而上”的情况一样,我们横截面表示二级和三级回报,但不是一级回报)。模拟结果比基于k均值的算法差得多:ROC=41.266%,SR=15.974,CPS=1.990。怎么会这样?凭直觉,这并不奇怪。

25
nandehutu2022 在职认证  发表于 2022-5-25 10:38:01
所有这样的松弛机制(层次聚集算法)都是从一个“种子”开始的,即根据某种标准选择的初始簇。在第3.3.5小节中,这是第一个包含使欧几里德距离最小化的对(i,j)的聚类。然而,通常这种选择在样本外非常不稳定,因此表现不佳。相比之下,k-means更具“统计性”,尤其是在聚合方面。5如何修复群集编号?到目前为止,我们已经选择了簇的数量Ku以及级别P“ad hoc”。我们可以“动态”固定它们吗?如果我们这样选择,在这里我们可以做很多复杂的事情。相反,我们的方法将基于实用主义(基于财务考虑)和简单性。从表2和表3可以推测,在我们的上下文中,级别的数量并不能决定它的成败。更重要的是集群的数量。所以,假设我们有一个给定数量的P>1的层。让我们先问一下,K(最细粒度级别)应该是什么,并且,通过构造“自下而上”应该比“自上而下”使用更多的信息,并且优于“自上而下”。表1基于通过(6)定义的聚类。然而,集群br*is=Ris/σi产生大致相同的结果。因此,基于聚类的随机运行“自下而上”三级分类,K=100、K=30和K=10 br*isvia收集了100个样本,产生了典型的性能,ROC=41.707%,SR=16.220,CPS=2.091(参见表3)。这里我们重点讨论基于k-means的“自下而上”和“自上而下”算法。

26
可人4 在职认证  发表于 2022-5-25 10:38:05
如上所述,松弛算法的性能低于基于k均值的算法。在其他情况下,已经讨论了用于确定集群数量的各种方法。例如,见(Rousseeuw,1987),(Goutte et al,2001),(Sugar and James,2003),(Lleit'iet al,2004),(DeAmorim and Hennig,2015)。KP(最小粒度级)be?实际上,股票数量N>d- 因此样本相关矩阵ψij是奇异的。(事实上,在大多数实际应用中 D- 1)我们可以通过统计风险模型对其进行建模(Kakushadze和Yu,2016b)。这些是通过截断ψijψij=d的谱分解得到的因子模型-1Xa=1λ(a)V(a)iV(a)j(22)通过第一个d-1主成分V(a)i(仅d-1特征值λ(a)为正,λ(1)>λ(2)>,λ(d-1) >0,而其余特征值λ(a)≡ 0,a≥ d) 至第一个F主成分(F<d- 1) 并补偿对角线上的偏差(如ψii≡ 1) 通过添加对角线特定(特质)方差ξi:Γij=ξiδij+FXa=1λ(a)V(a)iV(a)j(23),即,我们通过Γij近似ψij(单数)(这是所有ξi>0的正定义,并根据Γii的要求确定≡ 1) 。那么问题是,F应该是什么?(Kakushadze,2015b)中给出了一种简单的(“基于最小化”的)F筛选算法。最近提出的另一个更简单的算法(Kakushadze和Yu,2016b)基于下面定义的eRank(有效等级)。5.1有效RankThus,我们只需设置(此处圆(·)可替换为floor(·)=b·c)F=圆(eRank(ψ))(24)此处eRank(Z)是对称半正定义矩阵Z的有效秩(Roy和Vetterli,2007)。它定义为秩(Z)=exp(H)(25)H=-LXa=1paln(pa)(26)pa=λ(a)PLb=1λ(b)(27),其中λ(a)是Z的L个正特征值,H具有(香农a.k.a)的含义。

27
能者818 在职认证  发表于 2022-5-25 10:38:08
光谱)熵(Campbell,1960),(Yang等人,2005)。eRank(Z)的含义是,它是矩阵Z的有效维数的度量,它不一定与其正值的数目L相同,但通常更低。这是因为,许多收益可以通过进一步降低相关矩阵的有效维数来进行高度相关(这表现为特征值中的巨大差距)。有关Fixing F的先前工作,请参见,例如(Connor和Korajczyk,1993)和(Bai和Ng,2002)。5.2固定Ku这里没有魔弹。它只是需要有意义。直观地说,在统计风险模型的背景下,用因子F的数量确定最小粒度级别的聚类数kp是很自然的。因此,在下文中,我们将简单地取kp=Round(eRank(ψ))(28)添加更多粒度级别,探索基于贴近度标准的时间序列中更深的子结构。在这方面,我们可以将聚类的数量固定到最细粒度级别,如下所示。1级stocksper集群的平均数量为N=N/K(我们正在进行四舍五入)。假设每个集群中的库存数量相同且相等,N.IfN>d-1,然后是子矩阵ψij,i,j∈ Ca(1)(回想一下,Ca(1),a(1)=1,K、 是1级群集)是单数。对于N≤ D-1它们是非奇异的。因此,从直觉上看,很自然地需要N=d乘以Kby-1、恢复舍入,在下面我们将设置k=舍入(N/(d- 1) )(29)Ku,1<u<P怎么样?在这里做任何过于复杂的事情都是过分的。下面是一个简单的处方(假设K>KP):Ku=hKP-uKu-1个IP-1,u=1,P(30)我们在附录A中给出了使用该公式构建“自下而上”统计行业分类的R源代码。表7总结了P=2、3、4、5的模拟结果。

28
能者818 在职认证  发表于 2022-5-25 10:38:11
很明显,水平的数量并不是这里的驱动因素。结果基本上与表2和表3中K=100(回想一下,在我们的例子中,N=2000,d=21)的结果相同。表8分离出K依赖性,并表明性能峰值在K=100左右。再说一次,这里没有灵丹妙药。5.3比较让我们将统计行业分类的(非常稳定)结果与两个“基准”进行比较:统计风险模型(Kakushadze和Yu,2016b)和异质风险模型,其中BIC用作行业分类(Kakushadze,因子F的数量基本上衡量了收益率Ris的基本时间序列中自由度的有效数量。因此,利用该数字识别KP。即,Ku在对数刻度上是等距的(直至四舍五入)。对于P=3,“中点”K=√kkpi就是几何平均数。有了这个处方,我们可以通过一些启发式方法进一步确定P,例如,取最大P,使得差异KP-1.-KP公司≥ , 哪里 是预设的,比如说, = KP。对于K=100和KP=10,这将给出P=4,K=46和K=22。从表8中可以看出,由于风险空间的不充分性,粒度太小会降低夏普比率,而粒度太大会由于过度交易而降低每股美分。2015年b)。更准确地说,(Kakushadze和Yu,2016b)中的统计风险模型是基于样本相关矩阵ψij构建的,这相当于基于归一化回归序列=Ris/σi。如果我们使用基于eRank的算法来确定统计风险因子F的数量,那么表现为ROC=40.777%,SR=14.015,CPS=1.957(Kakushadze和Yu,2016b)。然而,如上所述,使用Bris=Ris/σi构建模型更有意义。因此,我们应该将我们的结果与基于Bris的统计风险模型进行比较。

29
何人来此 在职认证  发表于 2022-5-25 10:38:14
为了实现这一点,我们可以简单地替换R函数qrm中的tr<-apply(ret,1,sd)行。埃朗克。tr<-apply(ret,1,sd)/apply(qrm.calc.norm.ret(ret),1,sd)在(Kakushadze和Yu,2016b)的附录A中给出的pc(ret,use.cor=T),其中其功能为qrm。计算标准。ret()见本协议附录A。性能确实更好:ROC=40.878%,SR=14.437,CPS=2.018。因此,基于k-means的聚类算法仍优于统计风险模型,这意味着超过F个统计因子会增加价值,即数据中的结构比仅由主成分捕获的结构更多。然而,统计行业分类仍然大大低于基于BICS的异质风险模型(Kakushadze,2015b):ROC=49.005%,SR=19.230,CPS=2.365。显然,统计行业分类与BIC等行业分类并不完全相同,BIC是基于基本/经济数据(如公司的产品和服务,以及更广泛的收入来源、供应商、竞争对手、合作伙伴等)进行的。此类行业分类基本上独立于定价数据,如果构建良好,往往会非常稳定,因为公司很少跳转行业。相比之下,按性质划分的统计行业分类在样本外不太稳定。然而,当无法获得“基本”行业分类时,它们可以增加大量价值,包括回报率高于股票,例如定量交易alphas(Kakushadze和Yu,2017)。最后,在结束本节之前,让我们讨论“自上而下”的分类,动态确定聚类数Ku。更准确地说,在这种情况下,我们使用向量Lu(见第3.3.4小节)。我们在“自下而上”案例中使用的代码(附录A)也可以在这种情况下使用(通过参数选择)。

30
可人4 在职认证  发表于 2022-5-25 10:38:19
P=3的随机(典型)试验的ROC=41.657%、SR=15.897和CPS=2.079,而P=4的另一次试验的ROC=41.683%、SR=15.697和2.073。这些结果与我们在表6.6混合行业分类中的结果一致。统计行业分类的一个应用是将其用作改进“基本”行业分类的手段,如BIC、GIC等。因此,最粒度级别的“基本”分类可能有过大的子项(Kakushadze和Yu,2016b),四舍五入为2位小数,而这里我们四舍五入为3位小数。在这里,我们使用了(Kakushadze和Yu,2016a)的结果,这与thosein(Kakushadze,2015b)的结果略有不同,thosein采用了向下舍入(而不是简单的舍入)。行业,使用BICS术语表示不确定性。处理此类大型子行业的一种方法是,使用上文讨论的统计行业分类方法对其进行进一步集群。让我们以BICS为例来说明这一点。表9总结了2000年股票回溯测试投资组合中人口最多的前十大子行业(按股票计数)。为了进行比较,该样本中所有165个子行业的库存总量为最小值=1,第一季度=3,中位数=8,平均值=12.12,第三季度=15,最大值=94,标准偏差=14.755,MAD=8.896(符号见表4)。因此,我们有一些“大型”子行业,它们是异常值。我们可以使用我们的“自下而上”聚类算法将这些大型子行业进一步划分为较小的集群。事实上,它需要使用单级算法来拆分它们。我们使用附录A中的统计行业分类算法给出了改进现有“基本”行业分类的R代码。这个想法很简单。让我们通过A=1,…,在“基本”行业分类中标记子行业(最细粒度),K*.

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 15:02