楼主: mingdashike22
1533 63

[量化金融] 基于模式匹配的零成本投资组合学习 [推广有奖]

21
mingdashike22 在职认证  发表于 2022-5-18 14:02:03
除了性能优势外,使用二次近似法,这还将提供一种直接的方法,用于在单个框架中考虑完全投资和零成本投资组合。优化性能算法分两步进行,第一步,将问题分为长期限制内的每个随机过程。在充分了解分布情况的情况下,这些策略的增长率相当于对数最优组合的增长率。为了构造这种普遍等价的策略,需要知道给定一些过去Xt的条件分布Xt-1.在线学习算法和智能体生成算法,其次,将对数最优性标准降为半对数最优性。半对数最优投资组合的选择具有极大的优越性*(Xt)-1) =参数maxbEh(b(Xt)-1) Xt)|Xt-1.. (15) 其中h(z)=(z)- 1) -(z)- 1) 根据对数(z)在z=1时的二阶泰勒展开式。[19]中采用了一种相关的方法,他们推导出了一个有效的通用组合的解析近似值。我们的简化均值-方差方法是由他们开发的分析算法推动的,这里的区别是,我们需要一种在线、分析的算法,明确包括零成本投资组合,并允许在每一步直接使用某种代理生成算法(而非间接信息)来限制解空间。3.5. 主动基金分离问题通过解决主动基金选择问题,使用对数最优性的二次近似精确解,依次确定最优投资组合。主动基金选择问题是共同基金选择问题的一个特例[25,24]。

22
可人4 在职认证  发表于 2022-5-18 14:02:07
这将提供一个分析近似值,既可以满足长期完全投资代理(绝对代理),也可以利用零成本投资组合(主动代理)。因此,我们考虑了回报期望向量u和资产回报协方差矩阵∑的半对数最优投资组合优化问题[25,26,24],投资组合控制向量ω表示风险规避参数γ。向量的共轭转置表示为(·)Tovera单个投资周期,以确定控制问题:maxωnωTu-γωT∑ωos。t、 ωT1=1。(16) 这里,我们改变了符号,将投资组合控件表示为ω,以避免与投资组合策略控件b混淆,后者是在线学习算法的结果,旨在近似时间增量t的总投资组合控件Btf的半对数最优投资组合选择策略。这里,投资组合控件ω用于生成填充代理控制集Hn,t。它是代理控制集,然后用于在每次t:bt.Eqn生成半对数最优投资组合选择。(16) 可重写为共同基金Lagrangian L=ωTu-γωT∑ω- λω(ωT1)- 1). (17) Pi |ωi |=投资组合控制ω的1。并用初等库恩-塔克方法求解。根据投资组合控制的最优解ω,找到了两个方程*, 第一个是二次最优风险收益报酬,第二个是完全投资的组合投资约束ω*=γ∑-1(u - λω1),(18)ω*T1=1。(19) 拉格朗日乘子由代换方程确定。(18) 进入Eqn。(19) 结果:λω=T∑-1uT∑-1.-γ1Σ-1.(20)然后用它从方程n中消除拉格朗日乘数。(18) 找到共同基金分离定理的公式:ω*=∑-1T∑-1+γ∑-1.u- 1T∑-1uT∑-1..

23
何人来此 在职认证  发表于 2022-5-18 14:02:12
(21)右边的第一项是风险最低的投资组合,第二项是封装资产相对观点的零成本投资组合。我们通常使用等式n中给出的分离定理。(21). 第二项将为我们提供一种生成零成本投资组合的有效方法。然后,可以方便地将共同基金分离定理重新写入主动基金分离理论,这一理论可以从方程n中得到明确的结果。(21)将最低风险投资组合定义为基准投资组合:ω*= ωB+ωA,(22),其中ωB=∑-1T∑-1,(23)ωA=∑-1γu1吨- 1uTT∑-1.∑-11、(24)ω带ωa的公式将直接用于基于以均值u和协方差∑编码的视图的代理生成算法中,作为各种代理生成参数的函数。结果控制shn,twill然后由活性剂的ωafo的第m分量或时间增量t的第n个剂的ωB+ωafo的绝对剂的第m分量来确定。对于我们希望从零成本投资组合构建代理的情况,我们将使用eqn中的战术解决方案。(24)为给定的k元组生成代理。如果我们需要完全投资的代理人,我们将使用基准基金和主动(或主动)基金的组合。在以下两种可能的情况下,抑制代理为n个代理控制的m个对象上的索引:绝对代理人,和(2)活性剂为hnn,t=(hT1=1,h=ωB(∑)+ωA(γ,u,∑)s.t.h≥ 0hT1=0,h=ωA(γ,u,∑)s.t.hTh=1。(25)这里,Hn的第m个分量,tis Hnm,and投资组合权重取决于代理元组xn,tf对于agiven代理ωA=ωA(γ,u(xn,t),∑(xn,t))(26)ωB=ωB(∑(xn,t))。

24
nandehutu2022 在职认证  发表于 2022-5-18 14:02:17
(27)对于主动代理,我们在每个时间增量开始时强制执行杠杆统一约束,这可以被视为等同于在每个时间增量开始时设置风险规避γ,以便杠杆始终是统一的。这是该算法的一个重要特征,因为我们不会随着时间的推移实施统一的风险规避。考虑到可用信息,我们选择确保资本得到充分利用。以下各节描述如何为各种代理生成算法构造代理元组。3.6. 从模式中生成代理的算法,以有效地减少投资组合控制的空间,从而有效地生成一个合理的近似值,从而使用Eqn实现普遍一致的策略。(13) 我们使用代理生成算法来减少适用的控件集。我们在数值实验中使用的代理生成算法将是模式匹配算法[20]。对于如何将数据分解为各种算法的可管理部分,人们可以做出各种决策,最基本的决策涉及如何及时分解数据,我们称之为分区,另一个选择涉及如何根据对象本身(通常称为特征)分解数据,我们称之为聚类。分区通常是一项更复杂的任务,因为这会影响算法和系统结构。模式匹配算法基于两个步骤,依次选择簇s(n):(1。)分区和(2)模式匹配。

25
大多数88 在职认证  发表于 2022-5-18 14:02:20
聚类可以通过多种方法进行选择,我们希望推广两种方法:(i)基于相关矩阵的方法[27],和(ii)基于股票经济分类的聚类。先前的方法,即基于相关性的方法,其输出可以直接用作此处讨论的算法的输入,特别是通过s(n),集群成员参数。然而,本文将在第6节的日内实验中明确使用基于结构经济学部门分类的方法【29】。5.这是为了速度和简单。在日常的数值实验中,我们忽略了聚类的影响,以n-TH的聚类s(n)为例,使用ICB(行业分类基准)部门分类【29】应该注意的是,使用ICB部门为日常模拟生成额外代理确实会提高算法财富性能,但我们选择明确证明在日内战略库存的背景下包含部门信息的价值微不足道,即,我们考虑一个包含所有m对象的单一股票集群。将聚类索引(clusteringindexing)纳入到这些技术的实际实施中可能很重要,因为将交易信号决策限制在类似的股票上通常很有用。这有一个巨大的优势,正如我们在考虑使用Intraday数据进行数值实验时所显示的那样(见表15)。模式匹配算法分为两个关键部分:第一,分割算法,它从完整的特征数据集中选择时间顺序特征的集合。其次,模式匹配算法(如果给定从featuredata派生的测量模式)用于在给定的特征数据分区中查找相似模式。3.6.1.

26
nandehutu2022 在职认证  发表于 2022-5-18 14:02:23
分区从给定对象集合的原始时序数据中选择时序数据的子集。对象集合又可以是原始对象集的子集合。分区发生在时域,而聚类发生在对象维度。分区的目的是为模式匹配准备数据子集[22]。这里列举了四种不同的数据分区方法,但是在实验中只使用了平凡分区。分区是一个集合{pt},由给定时间序列长度的logicalvector表示,其中true表示为1,false表示为0,以索引给定分区中的成员身份。当一个分区是由在给定时间确定系统状态的特性确定的时,为了模式匹配,我们将使用该分区来表示处于该状态的系统。对于这里介绍的数值实验,我们将使用平凡分区的变化:这里所有时间有序的数据都保存在一个分区中,由时间序列长度的向量表示。{pt}={(1,…,1,1,1)}。(28)更复杂的分区具有财富优势。

27
何人来此 在职认证  发表于 2022-5-18 14:02:26
我们考虑了四种不同的分区方法:普通分区、重叠分区:分区中的数据成员身份是否重复以使数据偏向给定的时间,例如,对于长度为T的时间序列,最后的时间增量在所有分区中重复,排他分区是完整分区的互斥子集,以及侧信息分区【18】。最有启发性的有用分区是侧信息分区,其中分区可以在基于侧信息的规则的分区算法中预先选择[18],分区可以是长度T重叠特征分区的两个例子:{pt}T={(0,…,0,0,1),(0,…,0,1,1),…,(1,…,1,1,1)}。可用于对信息进行细微的利用,例如通过在不同区域分割特征数据,为不同区域生成不同的代理,也是算法并行化的有效方法。在这里,我们将根据从被观察系统中提取的附加特征产生的边信息来划分时间序列,如[18]所示。例如,我们可以使用带有“状态”的马尔可夫切换算法,在时间序列中每次分配一个状态索引,并根据状态确定分区成员,或者我们可以选择一个特征作为边信息,将数据“平铺”到“组”,然后根据给定时间在特定组中是否具有边信息特征,将其分配给给定分区。分区作为一种方便的机制,可以将特征数据分解为不同的状态。

28
nandehutu2022 在职认证  发表于 2022-5-18 14:02:30
当系统处于不同状态时,这在选择搜索模式时非常有用,因为它将使算法能够仅在历史数据中搜索模式,这些历史数据来自过去系统处于类似状态时的时间。通过将分区算法与状态检测算法相结合,既可以提高计算时间,也可以提高算法在财富生成方面的性能【28】,这一点在此不再深入探讨。3.6.2. 模式匹配模式匹配算法将采用k元组,通过查找k元组与给定分区中的数据之间的最小距离度量,搜索给定分区的特征数据中的相似模式。然后,将使用分区中的最佳匹配数据集来确定模式匹配时间j`。然后,匹配时间将用于在匹配模式之前的某个时间段τ选择未来结果。这个未来的结果用于构建一个数据元组,即代理元组,使用前瞻规则迭代:jn=j`+τ。这些模式匹配的数量将被累积以构造代理元组xn,并由此计算平均值和协方差。然后,这个平均值和协方差将作为等式n的输入。(22)为了确定代理控制Hn,t+1,第n个代理控制要保持的时间段t+1。模式匹配算法分为两个独立的算法。第一种算法,我们称之为模式算法,生成要匹配的模式,以及将模式匹配到的数据分区。第二种算法将获取模式和数据分区,并生成匹配时间。

29
nandehutu2022 在职认证  发表于 2022-5-18 14:02:33
然后将使用匹配时间生成代理元组xn,t。模式算法生成k元组{xtt-k} s(n)[22]用于匹配,以及使用数据的预定义时间分区{p`}和第n个代理s(n)的横截面簇的数据分区{xt}(p`,s(n))。根据定义给定代理的参数:第n个代理的集群成员w=s(n)、分区变量`、k元组变量k和前瞻性水平变量τ,对每个代理进行迭代。对于定义第n个代理的每一组变量,模式算法将调用匹配算法。算法2模式匹配算法(PMA)要求:1。功能xt2。n-agent参数k,`,s(n),τ3。n-代理的分区{p`},doHn,t+1=匹配(τ,{p`},{xtt-k} s(n),{xt}(p`,s(n)))结束agentsreturn Ht+1匹配算法将为k个整数xtt找到匹配项-把隔板拆下来。如果存在单个数据分区,匹配算法将查找^` closestmatches。我们考虑两条计算^`的规则,并将其称为规则P。引入该规则是为了将我们的算法与之前的文献(更具体地说是[20,22])进行比较。差异与各部分的定义和实施方式有关。我们考虑了一个简单的规则:^`=`和[22]中描述的恢复最近邻(NN)算法性能所需的规则。Gy¨or fi等人的最近邻规则是其中^`由变量p确定`∈ (0,1)。实验中使用的p`的选择与[22]中的相同。p`=0.02+0.5`- 1L- 1(29)^`=bp`tc(30),其中t表示历史中的时间段数,取FLOOR来确定给定时间的最小分区。

30
何人来此 在职认证  发表于 2022-5-18 14:02:36
这种修改主要是为了让我们能够使用我们在数值实验软件中实现的框架,恢复文献中先前的结果。如果每个分区中都有最匹配的算法,则会找到最匹配的分区。匹配算法将找到“最佳匹配”,并从这些最佳匹配中提取与每个HK元组匹配时间相关的“匹配时间j”。根据前瞻规则,匹配算法将构建代理元组xn,t。匹配算法将计算给定代理元组hn,t的代理控制。元组之间的距离是2-范数。虽然我们可以使用两个矩阵之间的距离作为算法中的一般距离,但我们选择了不同的方法,仅在k=1的情况下,选择对象特征的最新向量和测试元组作为这两个向量之间的向量距离,当k>1时,我们测量每个物体在不同时间与同一物体的距离,与其他物体无关。这将使我们能够独立地而不是集体地寻找对象的最佳特性。这是一个重要的补充,在我们遵循[22]的算法的原始版本中,我们在完全通用的情况下使用了2-范数,与窗口大小k无关。我们发现,通过使用按列计算的距离独立选择模式,性能更好。4、数据说明4。OHLC数据我们将考虑的数据是连续数据,但不一定是连续连续数据。因此,我们将研究OHLC(开盘-高-低-收盘)条形图数据,其中给定条形图的收盘价不一定是数据中后续条形图的开盘价。我们将首先研究每日采样数据,然后研究日内数据。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-2 22:39