楼主: mingdashike22
1796 82

[量化金融] 信号、影响和最优交易的市场自学习:无形 [推广有奖]

41
mingdashike22 在职认证  发表于 2022-6-10 03:09:36
因此,如果IRL的唯一目标是通过建模奖励函数从数据中学习策略,那么模型可以直接从数据中学习这些“重整化”参数。在这种情况下,无需将这些值拆分为当前奖励和预期未来奖励部分,从而将IRL中的最优策略问题减少到标准的最大似然估计。例如,【28】在不同的背景下考虑了这种方法。5最优交易的逆强化学习在本节中,我们将同时分析我们模型的两种设置:(i)单个投资者IRL,和(ii)市场投资组合IRL。这两种情况之间的主要区别在于,在第一种情况下,代理人的行为是可以观察到的,而在第二种情况下,代理人的行为不是可以直接观察到的,只能观察到其对市场价格的影响。第二个差异与模型中的规划范围有关。对于单个投资案例,我们有一个有限期MDP问题,其中任务在给定的初始时间开始,并在特定的时间T+T结束T步。相反,对于市场投资组合IRL,我们没有明确的开始时间和结束时间T的概念。唯一没有争议的类时间参数是当前时间t。合理的选择是通过设置t=t(这意味着我们现在开始我们的任务)来消除时间齐次问题中所谓的时间非平稳性,并将t设置为完整性。后者意味着将问题转化为有限水平IRL的问题。另一方面,正如我们将在下面展示的,这两种情况的计算算法有许多共同或相似的元素。

42
能者818 在职认证  发表于 2022-6-10 03:09:39
特别是,有限的时间范围设置可以通过固定的时间范围进行数值近似,而未观察到的行为可以被视为隐藏变量,现已成为模型推断的一部分。这意味着,在一定程度上,市场最优投资组合和单一投资者投资组合的推断应该涉及许多共同因素。在我们的环境中,由于我们的有限理性市场代理是所有个人投资者的总和,这两个公式中的状态变量以一种非常明确的方式联系在一起:在市场投资组合的情况下,单个投资者对agiven股票的投资金额变成了该股票的总市值。因此,在我们的modelby构造中,我们内置了将个人投资者的全部投资组合和行动相加为单个市场化投资组合和有限理性市场主体的单个行动的能力。这意味着市场投资组合推断的情况可以被视为单一投资者情况的一般化。在本节中,我们将提出一个从状态观测数据推断最优投资策略的一般解决方案,这对aIt的两种情况都适用,也为通过将市场最优投资组合概率分解(“细化”)为各主要投资者的子投资组合,以自上而下的方式构建流动“市场推动者”模型开辟了一条道路。我们将此留作将来的研究。单一投资者和市场投资组合。该解决方案基于变分EM算法,可用于确定原始模型参数。如第节所示。6、对于市场投资组合的特殊情况,除了这种一般方法外,我们的模型还可以用另一种更简单的方法进行估计,将其重新表述为股票回报的计量经济模型。

43
能者818 在职认证  发表于 2022-6-10 03:09:42
我们在本节中的介绍尽可能同时涵盖单一投资者和市场投资组合的两种情况,如果不可能,则单独进行分析。5.1可能性函数首先考虑可观察行动的情况。这种情况下的数据包括一组D轨迹ζi,其中i=1。状态-动作对的D(yt,at),其中轨迹i从某个时间t0iandruns开始直到时间Ti。我们考虑单个轨迹ζ,其中我们设置开始时间t=0和结束时间t。由于单个轨迹被认为是独立的,因此它们将加入问题的最终可能性中。我们假设动力学是成对的马尔可夫(yt,at)。弹道的完整数据概率ζisPc(y,a |Θ)=pθ(y)T-1Yt=0πθ(at | yt)pθ(yt+1 | yt,at)(53)这里p(y)是在第i个演示开始时yt的边际概率,pθ(yt+1 | ytat)是在前一个状态yt上的一个新状态yt+1条件的概率,这一步附加的动作。注意,第一个动作是固定的,因此我们得到πθ(a | y)=1。还要注意的是,在我们基于模型的IRL设置中,行动策略πθ(·| yt)和转移概率θ(yt+1 | ytat)都依赖于同一组参数。联合分布pθ(yt+1,at | yt)=πθ(at | yt)pθ(yt+1 | ytat)是我们框架中的生成模型。对于一个完整的数据(即当yT和ata都可观测时),我们得到以下log likelihoodLc(θ)=log Pc(y,a |Θ)=log pθ(y)+Xt∈ζ(logπθ(at | yt)+log pθ(yt+1 | yt,at))(54),其中ytand代表数据中观察到的值。给定政策和转移概率函数的一些简单参数形式,最大化这种完整的数据日志可能性非常简单。这种具有完整数据的推理问题对应于我们模型中的单一投资者IRL。市场投资组合的IRL出现了不同的情况。

44
能者818 在职认证  发表于 2022-6-10 03:09:45
在这种情况下,代理的操作将不再可见。我们分别将其视为隐藏变量,并对等式(53)中t上乘积的所有值进行积分。这就产生了预期的完全对数似然数,即dataLe(θ)=log pθ(y)+T-1Xt=0logZdatπθ(at | yt)pθ(yt+1 | yt,at)(55)由于对数似然函数涉及at上的一个积分,它通常在高维作用空间中难以处理。因此,我们接下来将讨论一种评估对数可能性的近似方法(55)。此外,由于公式(55)在时间步长上是加性的,因此,在接下来的内容中,我们将重点放在通过输入tin(55)上的和来计算atin上的积分的实用方法上。5.2 EM算法期望最大化(EM)算法是估计具有不完全观测值和/或隐藏变量的模型参数的有力方法。在我们的等式(55)中,隐藏变量的作用是通过以下动作发挥的。此外,我们可能会引入额外的隐藏变量,以便于所得近似似然的可处理性。设q(at | y)为动作的某个分布,该分布取决于数据y=(yt,yt+1)。我们可以用它来写出时间步[t,t+1]的预期一步对数似然Lt,如下所示:Lt(θ)≡ logZdatpθ(yt+1,at | yt)=logZdatq(at | y)pθ(yt+1,at | yt)q(at | y)≥Zdatq(at | y)logpθ(yt+1,at | yt)q(at | y)(56),其中在第二行中,我们使用了Jensen不等式。这将产生以下数据的预期对数似然下限:F(q,θ)≡Zdatq(at | y)logpθ(yt+1,at | yt)q(at | y)=等式[log pθ(yt+1,at | yt)]+H[q]=-KL[q(at | y)| pθ(yt+1,at | yt)](57),其中H[q]=-Rdatq(at | y)log q(at | y)是分布q(at | y)的熵。

45
kedemingshi 在职认证  发表于 2022-6-10 03:09:49
下限(57)可以解释为自由能,其“能量函数”log pθ(yt+1,at | yt)[38]。经典EM算法【12】相当于自由能(57)相对于分布q和模型参数θ:E步骤:q(k+1)=argmaxqF(q,θ(k))M步骤:θ(k+1)=argmaxθF(q(k+1),θ)(58)注意,通过注意式(57)中自由能F(q,θ)的最后形式表明,当q(at | y)=Cpθ(yt+1,at | yt)时,其作为q函数的最大值达到,其中C是归一化常数,应等于1/pθ(yt+1 | yt),以获得q(at | y)的正确归一化。这一起产生了E阶跃的以下分析结果:q(k+1)=pθyt+1,在| yt,θ(k-1)pθyt+1 | yt,θ(k-1)= pθ在| yt+1,yt,θ(k)(59)因此,第k步的q就是用上一次迭代的模型参数计算的ATT的后验分布。公式(58)中的M步等于参数θ中“能量”对数pθ(yt+1,at | yt)期望值的最大化。这个过程保证了单调收敛到自由能的局部最大值(57)[12,38]。5.3变分EMA由于经典EM算法的M步在我们的环境中很难实现,我们使用变分EM方法,其中,我们使用基于模型的规格QW(·),由一组“识别模型”参数ω参数化,而不是近似分布Q的非参数规格,从而获得E步的非参数最优解。

46
kedemingshi 在职认证  发表于 2022-6-10 03:09:52
然后,E步相当于参数ω的最大化,而M步是按照分布q(k+1)(·)确定的期望值执行的。因此,变分EM算法迭代更新识别模型参数ω和生成模型参数θ:E步骤:ω(k+1)=argmaxωF(ω,θ(k))M步骤:θ(k+1)=argmaxθF(ω(k+1),θ)(60),而EM算法的变分版本不保证每一步的alog可能性单调增加,它保证了在每次迭代时,对数似然不会减少(即它会增加或保持不变)。为了产生一个实用的计算方案,我们将以下变量分布qω(·)的规格视为四个隐藏变量在,’at,’yt,’yt+1的联合分布:qω(at | y)=Zd‘atd‘ytd‘yt+1qω(at,’at,’yt yt,’yt yt+1 | y)=Zd‘atd‘yq‘a‘,at,’y,ω在| at,ω)(61)处,其中y=(yt,yt+1)和'y=('yt,'yt+1)。隐藏变量\'at,\'y将用于下面的动力学线性化,类似于[5]中的鲁棒可控嵌入(RCE)方法。利用等式(57)中的分布,我们获得了观测数据对数似然的以下变分EM界:F(ω,θ)=Zd'atd'y q'a'y('at,'y'y,ω)Zdatqa(at'at,ω)logpθ(yt+1,at'yt)qω(at,'at,'y'y)≡Zd'atd'y q'a'y('at,'y'y,ω)Fa(ω,θ,'at,'y)(62),其中Fa(ω,θ,'at,'y)是条件变分自由能:Fa(ω,θ,'at,'y)=Zdatqa(at'at,ω)logπθ(at'yt,'at,'yt)pθ(yt+1'yt,at,at,\'y)qω(at,\'at,\'y | y)(63),其中对数中的qω(at | y)根据等式(61)计算。等式。(62)和(63)因此给出了推断市场投资组合的数据可能性的不同下限,而对于个人投资者的情况,我们必须忽略公式(62)上的内部积分。注意,在等式(63)中,我们明确地将隐藏变量引入了生成模型pθ(yt+1,at | yt)。

47
能者818 在职认证  发表于 2022-6-10 03:09:55
如下所示,引入这些隐藏变量是为了使公式(63)中涉及的两个计算变得容易处理:计算(63)中的积分,以及计算该积分所依赖的策略πθ。这两项任务显然是连续的。我们将首先使用隐藏变量的条件来找到行动策略πθ的可处理表示,然后使用此表示来计算at上的积分。公式(63)表明,如果分布qa(at |'at,ω)在at='at附近出现尖峰,则可以使用阿德尔点(拉普拉斯)近似计算条件自由能Fa(ω,θ,'at,'y)。然后,可以使用另一个鞍点近似值计算等式(62)中关于条件隐藏变量“at,”“yt,”“yt+1”的剩余积分。在我们指定了变分策略分布qq和生成模型pθ之后,下面将详细介绍该方案。5.4变分分布qwor变分模型qω定义如下:qω(at,\'at,\'y | y)=q'a'y(\'at,\'y | y)qa(at'at,ω)=qφ(\'yt+1'yt+1)qД(\'yt'yt,\'yt+1)q'a(\'at'yt,ω)qa(at'at,ω)(64)这里qφ和qД分别是变分前向和后向编码器【5】。正如我们假设的时间同质性,编码器qφ(\'yt+1 | yt+1)的函数形式应该与ofqφ(\'yt | yt)相同。我们对变量政策qw的四个边缘使用高斯规范:q'a('at'yt,ω)=N('at'ua(yt),∑a),qφ('yt'yt)=N('yt'φ(yt),∑φ)qД('yt'yt,'yt+1)=N('yt+1'(yt,'yt+1),∑Д)(65)qa(at |'at,ω)=N(at |'at,Δ),具有常数协方差矩阵和线性平均值函数:ua(yt)=ua+ayt|φ(yt+1)=uφ+λφyt+1uν(yt,'yt+1)=uИ+λ(1)Уyt+λ(2)Уyt+1(66)这些简单线性协方差的替代方法可以是非线性平均值,并通过参考文献[5]中的神经网络实现。,则,或者使用一些其他通用函数近似,例如高斯混合或树。

48
kedemingshi 在职认证  发表于 2022-6-10 03:09:59
在本文中,我们坚持简单的线性高斯分布(65),(66)。因此,变分分布qω的参数向量ω包括三个向量ua、uφ、uД、四个“斜率”矩阵∧a、∧φ、∧(1)Д、∧(2)Д和四个协方差矩阵∑a、∑φ、∑Д、∑δ。对于等式(61)中的边缘化分布qω(在| yt处),我们得到qω(在| yt处)=Zd a q a(| a | yt)qa(在| a处)=N(在|ua(yt)处,∑w),∑w=∑a+∑δ(67),我们还可以在| yt 1上边缘化:q | y(| yt,yt+1)=Zd | yt+1qφ(|yt+1 | yt+1)qΝ(Νyt | yt,Νyt+1)=N(Νyt |uh(yt,yt+1),∑h)(68),其中uh(yt,yt+1)=∧(2)Ν(Ν+Νyt+1)+∧(1)Νyt+ΝΛ(2)φT(69)最后,联合分布qh(\'yt,\'yt+1 | y)是具有以下逆协方差矩阵的高斯分布:∑-1j=Σ-1φ+ Λ(2)φΣ-1φΛ(2)φT-Λ(2)φΣ-1φ-Σ-1φΛ(2)φΣ-1φ(70)5.5条件自由能的计算让我们把条件自由能(63)写成如下:Fa(ω,θ,’at)=Eqa[对数πθ(at | yt)pθ(yt+1 | yt,at)]- Eqa[对数qω(at,\'at,\'y | y)]≡ Ea(ω,θ,’at)+Ha(71)此表达式中的第二项由以下表达式给出:Ha≡ -对数qφ((R)yt+1 | yt+1)- 日志q^1(\'yt | yt,\'yt+1)- log q'a('at'yt)+H[qa(at'at)](72),其中H[qa(at'at)]是边际qa(at'at)的熵:H[qa(at'at)]=-Zdatqa(at |'at)log qa(at |'at)=logn(2πe)N |∑∑δ| o(73)使用等式(65)中的边缘规范,我们得到了Ha的闭合表达式:Ha=-((R)年初至今+1- uφ)T∑-1φ((R)yt+1- uφ) -((R)年初至今- uИ)T∑-1^1((R)yt- uφ)-((R)在- ua)T∑-1a((R)at- ua)+logn(2πe)N∑δ| o-对数∑φ|-对数∑Д-对数∑a |-(2N+Na)log 2π(74),其中N和nas分别表示向量\'yt和\'at的维数。另一方面,条件自由能(71)中的第一个‘能量’项Ea(ω,θ,’at)不能以闭合形式计算。

49
能者818 在职认证  发表于 2022-6-10 03:10:01
更改积分变量→ δat=at-\'at,我们将该项写成如下:Ea(ω,θ,\'at)=Zdδatqa(\'at+δat | | | at,ω)log[πθ(\'at+δat | yt)pθ(yt+1 | yt,\'at+δat)](75)由于分布qa(at | | | at,ω)在at=\'at附近急剧达到峰值(只要∑δ足够小),我们可以使用鞍点近似计算该积分。为此,我们需要计算πθ(\'at+δat | yt)和pθ(yt+1 | yt,\'at+δat)的小值δat。让我们从计算pθ开始(yt+1 | yt,\'at+δat)。状态向量yt的全转移概率=[xt,zt]由以下表达式给出:pθ(yt+1 | yt,\'at+δat)=pz(zt+1 | zt)pθ(xt+1 | xt,\'at+δat)(76),其中pz(zt+1 | zt)=q(2π)K |∑z | e-(zt+1-(一)-Φ)ozt)T∑-1z(zt+1-(一)-Φ)ozt)(77)(见等式(13)),其中K是预测因子zt向量中的分量数。该项与δAt无关,并作为等式(75)中的常数项。(76)中的第二个条件转移概率pθ(xt+1 | xt,\'at+δat)可计算如下。首先,我们利用方程得到投资组合向量的动力学。(7) 和(11):xt+1=xt+ut+rto (xt+ut)=xt+ut+rf1+Wzt- MTut+εto (xt+ut)(78)=(1+rf)(xt+ut)+诊断(Wzt- Mut)(xt+ut)+ε(xt,ut)在这里,我们假设市场影响矩阵M与元素ui成对角线,setM=diag(ui),ε(xt,ut)≡ εto (xt+ut)(79)式(78)表明,由于市场影响,控制ut中的动态是非线性的~ M、 将操作UTA展开如下:ut=[1,-1] at=[1,-1] \'\'在+[1,-1] δat≡\'ut+δut,因此δut=[1,-1] δat=1T-1δ,其中1-1.≡ [1, -1] T,xtreadspθ(xt+1 | xt,\'at+δat)=q(2π)N |∑r | e的一步条件转移概率-Tt∑-1r级t(80)式中t型≡xt+1xt+(R)ut+δut- 1.- 射频- Wzt+MT(\'ut+δut)=d(\'at)+d(\'at)δat+d(\'at)(δat)+。

50
能者818 在职认证  发表于 2022-6-10 03:10:05
(81)遗传((R)at)=xt+1xt+1T-1英寸at- 1.- 射频- Wzt+MTT-1“atd(”at)=-diagxt+1xt+1T-1英寸at!T-1+MTT-1(82)d((R)at)=diagxt+1xt+1T-1英寸at![1,1]这些表达式与“at”呈非线性关系,在鞍点近似值范围内,这些表达式中的值将根据公式(65)中定义的分布q被其平均值所取代。另一方面,这些表达式的其他参数,即xtandxt+1(和zt)是在变分似然(62)和全似然(54)中直接观察到的值。接下来,对于δat的小值,我们必须计算作用策略πθ(\'at+δat | yt)。为此,我们将状态向量写为yt=’yt+δyt(该分解的含义将在下文中解释),并引入G函数的局部二次参数化:Gπt(yt,’at+δat)=δaTtGaaδat+δyTtGyyδyt+δaTtGayδyt+δaTtGa+δyTtGy+G(’yt,’at)(83),因为等式(45)给出了最佳行动策略,我们有(现在yt=\'yt+δyt)π(\'at+δat | yt)=π(\'at+δat | yt)eβ(Gπt(yt,\'at+δat)-Fπt(yt))(84)将这些表达式代入式(75)中,并在对数pθ(xt+1 | xt,\'at+δat)项中仅保留δatin中的二次项(见式(81)),我们得到了a(ω,θ,\'at)=E(0)a(ω,θ)+E(1)a(ω,θ,\'at)(85),其中E(0)a(ω,θ)=-“”在-^A-^AytT∑-1便士“”在-^A-^Ayt-dT∑-1rd+对数pz(zt+1 | zt)-Tr公司∑δdT∑-第一- Tr公司diag(δ∑)dT∑-第一-Tr公司ΣδΣ-1便士-对数∑p |-对数∑r |-Nlog(2π)E(1)a(ω,θ,’at)=βg(\'yt,\'at)- Fπt(yt)+δyTtGyyδyt+δyTtGy+Tr[δGaa](86)其中,我们省略了d,dand,don'at的依赖关系,见公式(82),ytinE(0)a(ω,θ)表示时间t的观测状态向量。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 05:47