楼主: kedemingshi
1199 31

[量化金融] 如何组合10亿个字母 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
89.2735
学术水平
0 点
热心指数
8 点
信用等级
0 点
经验
24665 点
帖子
4127
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
kedemingshi 在职认证  发表于 2022-5-11 01:43:14 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《How to Combine a Billion Alphas》
---
作者:
Zura Kakushadze and Willie Yu
---
最新提交年份:
2016
---
英文摘要:
  We give an explicit algorithm and source code for computing optimal weights for combining a large number N of alphas. This algorithm does not cost O(N^3) or even O(N^2) operations but is much cheaper, in fact, the number of required operations scales linearly with N. We discuss how in the absence of binary or quasi-binary clustering of alphas, which is not observed in practice, the optimization problem simplifies when N is large. Our algorithm does not require computing principal components or inverting large matrices, nor does it require iterations. The number of risk factors it employs, which typically is limited by the number of historical observations, can be sizably enlarged via using position data for the underlying tradables.
---
中文摘要:
我们给出了一个显式算法和源代码来计算组合大量N个字母的最佳权重。该算法不需要O(N^3)甚至O(N^2)运算,但成本要低得多,事实上,所需运算的数量与N成线性关系。我们讨论了在没有实际观察到的Alpha二元或准二元聚类的情况下,当N较大时,优化问题如何简化。我们的算法不需要计算主成分或求大矩阵的逆,也不需要迭代。它采用的风险因素的数量通常受到历史观察数量的限制,可以通过使用基础可交易资产的头寸数据进行大幅扩大。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Portfolio Management        项目组合管理
分类描述:Security selection and optimization, capital allocation, investment strategies and performance measurement
证券选择与优化、资本配置、投资策略与绩效评价
--
一级分类:Quantitative Finance        数量金融学
二级分类:Risk Management        风险管理
分类描述:Measurement and management of financial risks in trading, banking, insurance, corporate and other applications
衡量和管理贸易、银行、保险、企业和其他应用中的金融风险
--

---
PDF下载:
--> How_to_Combine_a_Billion_Alphas.pdf (918.23 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Quantitative Optimization Applications observations QUANTITATIV

沙发
可人4 在职认证  发表于 2022-5-11 01:43:19
如何将10亿AlphasZura Kakushadze§+1和Willie Yu结合起来2.§QuantigicResolutions LLC1127 High Ridge Road#135,斯坦福德,CT 06905+第比利斯自由大学商学院和物理学院240,第比利斯大卫·阿格马什内贝利巷,0159,乔治亚州新加坡大学路8号杜克国立医学院计算生物学中心169857(2016年2月27日)摘要我们给出了一个计算组合大量字母的最佳权重的实验算法和源代码。该算法不需要O(N)甚至O(N)运算,但成本要低得多,事实上,所需运算的计数与N成线性关系。我们讨论了在没有实际观察到的Alpha二进制或准二进制“聚类”的情况下,当N较大时,优化问题如何简化。我们的算法不需要计算主成分或求大矩阵的逆,也不需要迭代。风险因素项策略的数量通常受到历史观察数量的限制,通过使用可交易资产的头寸数据,可以大幅增加风险因素项策略的数量。Zura Kakushadze博士是QuantigicrSolutions LLC的总裁,第比利斯自由大学的全职教授。电子邮件:zura@quantigic.comWillie余博士是杜克国立大学医学院的研究员。电子邮件:威利。yu@dukenus.edu.sgDISCLAIMER:通讯作者使用这个地址的目的只是为了表明他在出版物中的职业联系。特别是,本文内容并非投资、法律、税务或任何其他此类建议,且不代表Q uantig icrSolutions LLC网站www.quantigic的观点。或者他们的任何一个朋友。1简介和总结既然机器已经接管了alphamining,可用alphas的数量正以指数级增长。

藤椅
能者818 在职认证  发表于 2022-5-11 01:43:24
在flip方面,这些“现代”字母越来越模糊,越来越短暂。为了减轻这一影响,除其他外,一家公司将大量阿尔法组合起来,并交易所谓的组合“巨型阿尔法”。这是不平凡的。为什么?重要的是要以最佳方式选择alpha权重,即优化该alpha投资组合的回报、Sharpe rat io和/或其他性能特征。优化阿尔法的常用技术在概念上类似于股票投资组合的均值方差投资组合优化[Markowitz,1952]或Shar-pe比率最大化[Sharpe,1994]。然而,也存在一些明显的差异。最平淡无奇的区别是字母的数量可能是巨大的,以几十万、数百万甚至数十亿计。然而,可用的历史(回顾)自然要短得多。这对确定阿尔法权重有影响。让我们看看权重为wi,i=1,…,的阿尔法投资组合的vanilla Sharpe比率最大化,N、 其中N是字母数。最佳权重由wi=ηNXj=1C给出-1ijEj(1)其中EJA是我们Alpha的预期回报,C-1 ijis是alphareturn协方差矩阵Cij的逆,η是归一化系数,因此nxi=1 | wi |=1(2)如果我们基于一个实现的回程时间序列计算样本协方差矩阵(见(3)),它是非常奇异的,因为观测值的数量比n小得多。这也发生在股票端口对开本的情况下。在这种情况下,我们可以建立一个适当的风险模型,以取代Cijor选择的商用(多因素)风险模型。对于Alpha,后者根本不存在。那么,我们该怎么办呢?我们可以根据arich在股票风险模型方面的经验,尝试为Alpha建立一个风险模型。

板凳
可人4 在职认证  发表于 2022-5-11 01:43:27
就股票而言,更普遍的方法是将风格风险因素(即基于股票的测量或估计属性的风险因素,如规模、价值、价值等)和行业风险因素(即基于股票在部门、行业、子行业中的成员身份的风险因素,这里的“阿尔法”——遵循常见的交易者行话——通常指任何合理的风险因素)结合起来一个人可能希望交易的“预期回报”,不一定与“学术”阿尔法相同。在实践中,通常关于alpha如何构造的详细信息甚至可能不可用,例如,唯一可用的数据可能是位置da ta,因此“alpha”是一组指令,用于在t,t。在古代,阿尔法权重必须是非负的。在许多实际应用中,情况并非如此,因为只有“mega alpha”被交易,而不是单个alpha。没有仓位限制、交易成本等——这些都不会影响我们在这里提出的观点。等等,这取决于特定行业类别(雇员)所使用的非门类。风格因素的数量是有限的,较长水平模型的数量级为10,较短水平模型的数量级约为4。就股票而言,至少对于Shorter horizon模型而言,增加价值最多的是无处不在的行业风险因素(对于一个典型的液体运输领域,风险系数为几百)。然而,Alpha没有类似的(二进制或准二进制)行业分类。实际上,对于许多字母,甚至不知道它们是如何构造的,只知道(历史和期望的)位置。

报纸
大多数88 在职认证  发表于 2022-5-11 01:43:30
即使是公式化的字母[Kakushadze,2015d]也大多非常复杂,以至于实际上不可能以任何有意义的方式对它们进行分类,至少不会导致产生的(二进制或准二进制)“簇”的数量足够多,足以与主成分竞争(见下文)。对于阿尔法[Kakushadze,2014]来说,只有少数几个与prio r i相关的风格因素可以与主成分竞争。就像股票的情况一样,我们可以利用样本协方差(或相关性)矩阵的主成分来建立阿尔法的多因素风险模型。这就是我们的主要观察结果之一。正如我们在下面详细讨论的那样,无论CIJI的FACTO r模型是如何建立的,在缺乏(二进制或准二进制)“聚类”的情况下,当αN的数量为la r ge时,优化(1)总是减少到(加权)回归!这也适用于此类变形的样本协方差矩阵的任何合理现实变形(例如收缩[L edoit and Wolf,2004]),可以视为多因素风险模型。也就是说,无需构建全面风险模型并计算因子共变矩阵或特定(特质)风险。因此,作为最简单的变量,我们从对应于其正特征值的样本协方差矩阵的前M个主分量构造因子载荷矩阵,并使用逆样本方差Cii=σi给出的回归权重回归该因子载荷矩阵上的阿尔法预期收益。然而,事实证明,我们甚至不需要计算主成分,从而进一步降低了计算成本。这里有一个简单的处方来获得体重。从已实现阿尔法回报的时间序列开始(s=1,…,M+1乘以ts)。

地板
能者818 在职认证  发表于 2022-5-11 01:43:33
计算样本方差Cii=σi(但不计算样本相关性)。这需要O(MN)运营成本。规范化收益率viaeRis=Ris/σi。按横截面和顺序进行减量化。让我们把这些被贬低的回报称为Yis。拿我来说- 1列inYis(例如,第一个-1列)。以alpha的预期回报为例,通过二进制“集群”,我们的意思是每个alpha将属于一个且仅属于一个“集群”。所谓准二元c团簇,我们的意思是,大多数情况下都是这样,但阿尔法的一个(小)fr作用可能属于多个(大多数几个)“团簇”。这类似于二元和准二元(即,根据命名惯例,我们有一些属于多个行业、子行业等的企业集团)行业分类。还有稳定问题。很少(如果有的话)跨越行业,使得结构良好的行业分类相当稳定。然而,alpha是短暂的物体,很难被归类为任何类型的稳定二进制或准二进制“簇”。更准确地说,我们可以做到这一点,但在第0个——也是非常好的——近似值中,我们不需要这样做。通过Ei=Ei/σi标准化t hem。在N×(M)上回归- 1) 矩阵具有单位权重且无截距。这种重新分配会导致O(MN)运营成本增加。以这个回归的残差eε为例。然后最佳权重wi=ηeεi/σi,其中η通过(2)固定。如果读者只对处方和源代码感兴趣,那么读者可以直接进入附录A,在那里我们为该算法提供源代码,并跳过本文的其余部分。

7
kedemingshi 在职认证  发表于 2022-5-11 01:43:38
然而,如果读者想理解为什么这个算法是有意义的,以及,除其他外,如何潜在地增加风险因素的数量≈ 250)到几千,那么读者可能希望继续阅读。总之,计算权重不需要计算任何主成分或对任何大型矩阵求逆,并且只需要O(MN)运算,因此在N中是线性的。此外,该算法不具有时代性,因此无需担心收敛问题。也许有点讽刺的是,这种算法的简单性植根于这个问题的本质,即与大量的字母相比,我们只有少量的观察值。正如我们在接下来的章节中更详细地讨论的那样,除了增加风险因素的数量,只要我们有其他可用信息,就没有人能做到样本外稳定。本文的其余部分组织如下。在第2节中,我们设置了框架和符号。在第3节中,我们将讨论为什么在没有“聚类”的情况下,使用因子模型的优化会减少到大N限制下的回归。第4节我们讨论了为什么这也适用于样本协方差矩阵的变形,因为它们也减少了因子模型。我们还讨论了为什么风格因素几乎没有增加价值,以及如何根据更详细的头寸数据(与历史阿尔法回报数据相反)扩大风险因素的数量。在第5节中,我们讨论了一种情况,即将“市场”模式f或股票的模拟因素考虑在内,以改善alpha por t folio的表现。我们还给出了获得最佳α权重的详细算法,并讨论了计算成本(包括为什么它比主分量法便宜)。

8
mingdashike22 在职认证  发表于 2022-5-11 01:43:41
我们在第6节简要总结。附录A包含我们算法hm的源代码。附录B包含一些法律术语。第3节和第4节的部分基于[Kakushadze和Yu,2016b]。2样本协方差矩阵。因此,我们有N个收益时间序列。先验地,这些回报可以对应于股票或其他工具、Alpha等。这里我们将是一般性的,并将其简单地称为回报,尽管我们将在下面对这些回报进行一些假设。每个时间序列包含对应于时间ts的M+1观测值,我们将打包用于统计计算,http://www.r-project.org.附录A中给出的源代码不是为了“花哨”,也不是为了速度或任何其他方式而优化的。它的唯一目的是用一种简单易懂的方法来说明正文中描述的算法。应用程序e ndix B中给出了与此代码相关的一些术语。将我们的回报表示为Ris,其中i=1,N和s=1,M、 M+1(这是最近的观测)。样本协方差矩阵(SCM)由cij=MM+1Xs=1XisXjs(3)给出,其中Xis=Ris-里亚尔连续贬低回报;Ri=M+1PM+1s=1Ris。我们感兴趣的是M<N的情况,实际上是M<< N.当M<N时,cijisingular:我们有pm+1s=1Xis=0,所以矩阵xis中只有M列是线性相关的。让我们去掉最后一列:Xi,M+1=-PMs=1Xis。然后我们可以通过前M列表达Cij:Cij=MXs,s′=1Xisφss′Xjs′(4)这里φss′=(δss′+usus′)/M是非奇异的M×M矩阵(s,s′=1,…,M);我们≡ 1是单位M向量。注意φss′是一个单因素模型(见下文)。挑战在于要么使CijSich变形为非奇异矩阵,要么用构造的非奇异矩阵Γiji代替它,使其合理地逼近Cijin样本,并在样本外预测它。

9
nandehutu2022 在职认证  发表于 2022-5-11 01:43:44
让我们首先讨论后一种方法。3因子模型通过因子模型为CIJI构建非奇异替换Γij=ξiδij+KXA,B=1的一种流行方法——至少在股票的情况下是如此OhmiAΦABOhm这里的jB(5):ξ是每个收益的特定(又称特质)风险;OhmIa是一个N×K因子加载s矩阵;ΦABis是K×K因子协方差矩阵(FCM),a,B=1,K.系数K的数量<< N使FCM比SCM更稳定。Γijis的优点是,如果FCM是正定义且所有ξi>0,则它是正定义(因此是可逆的)。出于我们的目的,这里可以方便地写出ΓijviaΓij=ξiξjγij,其中γij=δij+KXA=1βiAβjA(6)cijd的整体标准化不会影响权重wiin(1),因此分母中M的无偏估计与分母中M+1的最大似然估计之间的差异对于我们的目的来说无关紧要。此外,在大多数应用程序中>> 1.关于股权多因素模型,请参见[Grinold and Kahn,2000]和中的参考文献。阿尔法的多因素模型方法在[Kakushadze,2014]中进行了详细阐述和讨论。βiA=eβiA/ξi。这里(用矩阵表示法)eβ=OhmeΦ,andΦ是Φ的cholesky分解,soeΦeΦT=Φ。权重(1)(Cijr替换为Γij)由wi=ηξiNXj=1γ给出-1ijEjξj=ηξi“Eiξi-NXj=1KXA,B=1βiAQ-其中QAB=δAB+QAB,QAB=PNi=1βiAβiB。该矩阵的对角元素a r e QAA=1+PNi=1βiA。因此,如果所有qAA=PNi=1βiA>> 1,我们暂时会认为是这样,然后是QAB≈ qAB=PNi=1zieβiAeβiBandwi≈ ηzi“Ei-NXj=1KXA,B=1eβiAq-1ABeβjBzjEj#=ηziεi(8),其中εi是eIoverβiA的横截面加权回归的残差,权重zi=1/ξi,或者,等价地,eεi=εi/ξi是Ei=Ei/ξi overβiA的单位加权回归的期望值。

10
可人4 在职认证  发表于 2022-5-11 01:43:48
所以,(1)r导出一个回归。问题是为什么——或者更准确地说,什么时候——所有的qAA>> 1.当i)N较大,且ii)向量βiA中没有“聚集”时,就是这种情况。也就是说,对于指数i的大多数值,我们没有消失或较小的βiA值,只有一小部分具有βiA~>1.没有“集群”,要有qAA~<1.我们必须有β-iA<< 1,即γij,因此Γij几乎是对角的。例如,考虑一个具有均匀βi的单因子模型(K=1)≡ β. 在这个模型中,我们有均匀的成对关联ρ=β/(1+β)。为了不让这些相关性变得很小,我们必须有β~>1.现在,Q=1+Q,其中Q=Nβ。对于大N,我们有Q>> 1,Q≈ q、 在这种情况下,我们有一个关于截距的加权回归。因此,在没有“聚类”的情况下,当N较大时,因子模型仅适用于通过特定风险ξi确定回归权重的范围。因此,FCM不会影响回归残差:它们在βiA(以矩阵表示)β的线性变换下是不变的→ βU,其中UABis是一般的非奇异矩阵。“集群”呢?对于大量交易基本上重叠的阿尔法股票(例如,流动性最高的2500只美国股票),没有“集群”解决方案,因为它们不能像股票的行业分类那样以二进制方式进行分类,而且阿尔法股票的这种分类通常是不可能的。因此,任何风险因素都缺乏“聚类”,类似于风格因素或主成分。4变形样本协方差矩阵我们现在讨论去噪或正则化SCM,使其不是非奇异的。在这方面经常使用的一种方法是所谓的收缩[Ledoit和Wolf,没有截距,除非它包含在EβiA.2004列的线性组合中]。它通常被视为多因素风险模型的“替代品”。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-4 09:03