楼主: mingdashike22
1827 82

[量化金融] 信号、影响和最优交易的市场自学习:无形 [推广有奖]

51
mingdashike22 在职认证  发表于 2022-6-10 03:10:08
第二个表达式E(1)a(ω,θ,’at)inEq。(85)因此收集了所有依赖于G函数和F函数的项,而独立于这些函数的项组合在E(0)a(ω,θ)中。总结到目前为止,Eqs。(85)、(86)、(72)共同规定了条件变分自由能(71),前提是模型参数以及G函数(83)和F函数已知。一旦计算了条件自由能Ea(ω,θ,’at),就可以使用‘at’上积分的另一个鞍点近似来计算无条件变量自由能(62)。接下来将介绍该计算,而以下各节将描述通过线性化在‘‘at’、‘y.5.6计算变分自由能FRecall来确定策略πθ和G函数(83)以及相应的F函数的方法。在等式(83)中,我们使用了状态向量yt=’yt+δyt的表示。这将可观测向量yt分解为两个不可观测量yt和δyt之和。当我们对线性化变量\'yt进行条件处理时,我们可以写出δyt=yt-当对外部隐藏变量进行积分时,可观测的yti分解为两个不可观测的yt,δyti的优点是,现在我们可以假设F函数在随机隐藏条件(线性化)值at,y附近是局部二次的,并将其参数化如下:Fπt(yt)=δyTtFyyδyt+δyTtFy+F(\'yt,\'at)(87)=FxxFxzFzxFzz, 财政年度=FxFz, (88)在有限水平设置中,参数Fyy、Fy、Fbecome与时间相关,而在有限水平设置中,参数Fyy、Fy、Fbecome与时间无关。

52
何人来此 在职认证  发表于 2022-6-10 03:10:11
如下所示,(87)中的最后一个项(\'yt,\'at)是(\'yt,\'at)的二次函数。使用(86)中的公式(87),我们得到了无条件自由能(62)的以下分解:F(ω,θ)=Zd'atd'y q'a'y('at,'y'y,ω)Ha+E(0)a(ω,θ)+E(1)a(ω,θ,at)≡ H+F(0)(ω,θ)+F(1)(ω,θ)(89)这里可以解析计算第一项:H=-Zd'ytd'yt+1qh('yt,'yt+1'y)log qh('yt,'yt+1'y)+H[q'a('at'yt)]=logn(2πe)2N'o+logn(2πe)Na'a'o(90),其中联合协方差矩阵∑jis定义在等式(70)中。式(89)中的第二项F(0)(ω,θ)涉及E(0)a(ω,θ)的积分,该积分收集了与G函数和F函数无关的所有项。使用鞍点近似值,我们用其平均值h?ati=ua(yt)替换?atin系数(82)。因此,在这种近似下,由于第一项,E(0)a(ω,θ)的依赖性仍然是二次的。将该表达式与等式(65)给出的高斯分布qa相结合,我们得到f(0)(ω,θ)=Zd'atd'y q'a'y('at,'y'y,ω)E(0)a(ω,θ)=Zd'atq'a('at'yt,ω)E(0)a(ω,θ)=-ua-^A+∧a-^A年初至今T∑-1便士ua-^A+∧a-^A年初至今-dT∑-1rd+对数pz(zt+1 | zt)-Tr公司∑δdT∑-第一- Tr公司diag(δ∑)dT∑-第一-Tr公司ΣδΣ-1便士-Tr公司∑a∑-1便士-对数∑p |-对数∑r |-Nlog(2π)(91)最后,我们考虑等式(89)中的第三项,它依赖于G函数(83)和f函数(87)。使用这些表达式,我们可以写出此项的被积函数E(1)Ao,定义在等式的第二部分。(86)如下(1)a(ω,θ,’at)=βg(\'yt,\'at)- Fπt(yt)+δyTtGyyδyt+δyTtGy+Tr[δGaa](92)= βδyTt(Gyy- Fyy)δyt+δyTt(Gy- Fy)+g(\'yt,\'at)- F(\'yt,\'at)+Tr[δGaa]附录A昆虫中导出了G函数和F函数参数之间的关系。A、 3,见等式。(A.23)。

53
nandehutu2022 在职认证  发表于 2022-6-10 03:10:15
使用以下辅助量(如下式(A.21)中所述,为方便起见,在此重复)bt=(R)at-^A-^A'yt,∑p=∑-1便士- 2βGaa,Γβ=β我-Σ-1便士T▄∑-1便士Σ-1p,Υβ=∑-1p∑-1pEay=Υβ^A+βИ∑-1天=GTayΥβ-^ATΓβEa=^ATΥβGa+βGTay∑-1pGa,Lβ=2β对数∑p |+对数∑p我们得到fyy=Gyy+gTayey-^ATΓβ^AFy=Gy- Daybt+^ATΥβGa+βGTay ∑-1pGa(93)F(\'yt,\'at)=g(\'yt,\'at)-bTtΓβbt- GTaΥβbt+βGTa ∑-1pGa- Lβ这些关系表明,自由能(87)中的不同项对隐藏变量“At”和“yt”的依赖性如下。首先,二次项δyTtFyyδytis'yt中的二次项(如δyt=yt-\'\'yt),且独立于\'\'at。第二项δyTtFyis在“yt”中为二次项,在“at”中为线性项。自由项f(\'yt,\'at)由等式(92)中抵消的项g(\'xt,\'at)和等式(92)中最后一个表示的二次型的项g(\'xt,\'at)之和给出。(93).因此,该表达式的积分可以用Gaussianhidden变量分布的闭合形式计算(65)。

54
能者818 在职认证  发表于 2022-6-10 03:10:18
使用等式。(92)和(93),在变分分布q'a'y('at,'y'y)下,我们得到等式(87)中三项的预期E'at,'y[·]的以下结果:E(1)yy(ω,θ,'at)≡ E在,yβδyTt(Gyy- Fyy)δyt= βTrΣ-1小时^ATΓβ^A- GTayEay公司+β(yt- uh(y))T^ATΓβ^A- GTayEay公司(年初至今)- uh(y))E(1)y(ω,θ,’at)≡ E在,yβδyTt(Gy- 财政年度)= βTrΣ-1hDay^A- βuh(y)^ATDTay+β(yt- uh(y))TEa+天ua(yt)-^A(94)E(1)(ω,θ,’at)≡ E’at,’y[β(g(’yt,’at)- F(\'yt,\'at)+Tr[δGaa]]=βTrh∑aΓβ+σh^atΓβ^Ai+βatΓβ^a- β^ATΓβua(yt)- βua(yt)-^ATΓβ^Auh(y)+βGTaΥβua(yt)-^A-^Auh(y)-βGTa ∑-1pGa+βTr[δGaa]+βLβ,其中线性高斯平均函数ua(yt)和uh(y)在等式中定义。(66)和(69)。因此,变分自由能(89)的最终闭合形式结果由sumof方程(90)、(91)和(94)给出:F(ω,θ,πθ)=H+F(0)(ω,θ)+F(1)(ω,θ,πθ)(95)。在这里,我们将策略πθ作为F(ω,θ,πθ)的参数,以强调后者依赖于三组输入:变分参数ω,生成模型参数Θ,以及最优策略πθ。变分自由能(95)通过其对参数Gaa,Gayetc的依赖性取决于策略πθ。确定最优G函数(即最优熵正则化Q函数)的局部二次表示(83)。变分EM算法相当于公式(95)的迭代最大化。由于变分自由能(95)的整体表达式是解析表达式,因此该算法的E步和M步在计算上都很轻松。在E步中,我们将其最大化为变量参数ω,同时保持参数Θ和前一次迭代的G函数。在M-step中,我们根据生成模型参数Θ和策略πθ将其最大化。M步的输出是参数Θ的更新值和G函数(83)参数的更新值。

55
可人4 在职认证  发表于 2022-6-10 03:10:21
现在,我们将更详细地考虑M-step。5.7 M-step:策略优化在M-step中,G-function的更新使用eq完成。(A.9),(A.15),(A.17)在附录A中推导。这些方程提供了一般自洽方程组(44),(45),(46)在我们的G函数局部二次展开设置中的实际实现。在这种情况下,这些方程中的所有积分都是以分析的方式进行的,因此在我们的高维连续状态作用设置中提供了这种方法的一个可操作版本。请注意,G-learning的原始版本仅在[18]中在低维离散环境中进行了探讨。如附录A中所述,等式。(A.9)、(A.15)、(A.17)可用于单个投资者或市场投资组合。在前一种情况下,更新在时间上向后执行,从F函数或/和G函数的终端时间T和特定终端条件开始。在市场投资组合的后一种情况下,这些方程可用于时间平稳设置中,作为G函数时间无关系数的更新规则。当以这种方式计算时间步长t的Q函数系数时,δatis的最佳作用分布是使用等式(84)计算的,为了方便起见,我们在这里重复该等式:πθ(\'at+δat | yt)=π(\'at+δat | yt)eβ(Gπt(yt,\'at+δat)-Fπt(yt))(96)当通过调节固定时,我们将分布视为δat的高斯分布,平均δat=^a+^Ayt-“”在。

56
mingdashike22 在职认证  发表于 2022-6-10 03:10:24
由于参考分布π是高斯分布,Q函数是二次函数,最优行动策略π再次是高斯分布,具有新的均值和协方差:πθ(δat | yt)=π(δat | yt)eβ(Gπt(yt,at)-Fπt(yt))=Nδat | cδat,∑p(97)其中,N(·)是具有以下平均值和协方差矩阵的多元高斯分布:cδat=∑pΣ-1pcδat+βGayδyt+βGa∑p=Σ-1便士- 2β砷化镓-1(98)这些关系可被视为当前迭代平均值cδat(见等式(A.19))的贝叶斯更新,以及相对于“先前”参考政策(A.18)值的最优行动政策方差∑pof。注意,在极限β→ 0,等式(98)不产生更新,cδat=cδat。这是意料之中的,因为在这个“高温”极限中,代理只会最大化KL熵的负性,而不会最大化奖励。它们还可以表示为根据原始策略变量对行动策略(29)的更新。Ascδat=^A+^Ayt-在,平均值CδA的更新(98)意味着参数A和A的更新。将此表达式代入等式(98),并比较此等式中的截距和线性项,可更新策略(29)的平均值:∑(k+1)p=∑(k)p-1.- 2βG(k)aa-1^A(k+1)=at+∑(k+1)p∑(k)p-1.^A(k)-“”在+ β∑(k+1)pG(k)a- G(k)年^A(k+1)=∑(k+1)p∑(k)p-1^A(k)+βG(k)ay(99)我们使用参数值Gaaetc。对应于算法的当前迭代。这些更新再次退化并成为高温极限β中的恒等式→ 另一方面,在相反的极限β中→ ∞ 我们获得了有限且非琐碎的更新。请注意,在单一投资者的有限期限设置中,参数Gaa、Gayetc。与时间相关,因此系数^A也将与时间相关。

57
kedemingshi 在职认证  发表于 2022-6-10 03:10:27
另一方面,对于市场投资组合推断,G函数的参数与时间无关,因此参数^a和^a也与时间无关。步骤k+1的更新策略现在采用π(k+1)(at | yt)=N的形式在| A(k+1)+^A(k+1)yt时,∑(k+1)p(100)^Aon'at'yt的明显依赖性是我们对等式(62)中的外部积分值进行调节的结果。虽然^ama的更新可能取决于等式(99)中的调节/线性化变量\'at,\'ytas,但使用此方法获得的最终固定点值^ao是一个与\'at,\'yt独立的常数参数。方程(99)和(100)代表了我们的主要结果之一。关键是最后一个等式。(99)表明,即使上一次迭代的值为零,也可以获得非零系数^a(k+1)。当k=0时,这意味着即使我们从PolicyPrevior(29)中的^A(0)开始,该系数(导致最优策略对状态yt的依赖)也变为非零。此外,这意味着在收敛时,更新(100)会产生一些固定的策略参数值^A,^Aof。因此,我们的模型预测,最优投资政策是高斯型的,其平均值在状态变量yt=[xt,zt]中是线性的,就像Todorov和Li的迭代线性二次高斯(iLQG)调节器一样[53]。当XTI与市场投资组合确定且代理人是我们的有限理性市场代理人时,等式(100)(与此类固定点值^a、^a一起使用)定义了最佳的“市场隐含”行动政策。这在Black-Litterman模型[8]的单周期设置和Bertsimas等人的反向投资组合优化方法中提供了市场最优静态投资组合的概率和多周期扩展。

58
可人4 在职认证  发表于 2022-6-10 03:10:30
[7].另一方面,如上所述,如果我们能够访问某个投资者的自营交易数据,那么同样的框架也可以应用于该个人投资者。在这种情况下,行动将是该投资者的行动。如果这些动作是可观察的,则可在最大似然估计中直接使用等式(100)。我们在附录B中讨论了这一点,作为我们模型的一个特殊情况,而在这里,我们继续讨论(市场代理人或个人投资者的)行为不可观察的情况。虽然本文的主要重点是对市场范围内有界理性主体的推理,但该算法也可用于交易影响市场但无法直接观察到的单个大型投资者。当市场波动与单个大额交易的影响具有更强的因果关系时,这种设置可能会对日内交易产生兴趣。在这种情况下,变量Xt对应于不同股票头寸的美元价值,它们是市场投资组合中所有公司的总资本化,用于推断市场。5.8市场投资组合的内部收益率与单一投资者的内部收益率在本文中,我们对单一投资者和市场投资组合的数学公式几乎是一致的。在这两种情况下,最优投资政策由公式(100)给出,在这两种情况下,可以使用公式(95)给出的单步变分自由能的变分EM算法进行推理。现在我们来讨论这两种情况之间的区别。第一个区别在于计算进入这些方程的参数的计算程序。对于单个投资者的情况,如果未观察到行动,则等式中的系数。(100)和((95)与时间相关,应通过从最终日期t=t开始的向后递归计算,如附录a所述。

59
mingdashike22 在职认证  发表于 2022-6-10 03:10:34
对于市场投资组合的情况,问题是静态的,因为在市场中没有单一的唯一地平线T用于规划。这意味着系数现在与时间无关。方程的自洽集。(44),(45),(46)对于静态情况,readsFπ(yt)=βlogXatπ(at | yt)eβGπ(yt,at)Gπ(yt,at)=R(yt,at)+γEt,a[Fπ(yt+1)| yt,at](101)π(at | yt)=π(at | yt)eβ(Gπ(yt,at)-Fπ(yt))具有未观察到的行为的单个投资者案例可能不如具有可观察性的场景常见,但后者是一个简单的案例,因为它根本不需要隐藏变量,请参见附录B。从计算角度来看,该公式相当于解出自洽系统方程。(101)作为时间平稳G函数、F函数和策略πθ的定点方程。在这种情况下,方程(A.23)成为定点矩阵方程,因为现在它们将F函数(A.22)的矩阵系数与其自身相关联,而不是与其下一个周期值相关联,就像在有限的层位规格中一样。在平稳设置中,这些方程可以作为F函数参数的更新规则,方法是从右到左读取,与在时间依赖情况下的每个步骤中使用的方法相同。市场投资组合IRL与单一投资者案例的第二个主要区别是,虽然在这种情况下可以直接观察到状态,但行动不是。它们可能会在模型的多代理版本中被观察到,其中的目标是对击败市场的策略进行建模,而不仅仅是对市场定位策略进行建模。然而,在本文的反向优化IRL设置中,我们只有一个代理代表市场本身的有限理性成分,因此它不能与其他代理进行股票交易。因此,其行为不能被观察或解释为投资组合中股票数量的变化。

60
可人4 在职认证  发表于 2022-6-10 03:10:37
我们的代理人只对其交易决定进行实际的自我发挥,但不直接与任何其他交易对手进行交易。由于通过交易影响机制加热市场,代理商价格变化行为的唯一可见影响。我们现在已经准备好制定最终的变分EM算法,用于推断个人投资者或市场最优投资组合。对于市场最优投资组合的特殊(也是最有趣的)情况,将在第节中介绍一种不同且更简单的算法。6.5.9自由能看不见的手推断(IH-IF)算法算法1给出了学习行为不可观察的有限理性主体(市场主体或单一投资者)最优策略的完整IRL算法,我们称之为自由能看不见的手推断(IH-IF)。我们的算法是一种变分EM算法,相当于Q的迭代最大化。(95). 在E步中,我们将其最大化为变分参数ω,同时保持参数θ=(λ,ui,β,W,Γ,Υ),^A,^A,∑和上一次迭代的G函数。在M-step中,我们根据生成模型参数Θ和策略πθ将其最大化。M步的输出是参数θ的更新值和G函数参数的更新值(83)。更详细地说,在每次迭代中,我们对新的随机小批量NbT步骤轨迹(y,…,yt+T)进行采样。对于市场投资组合的情况,我们可以取T=1,这样一个小批次具有nb单步过渡(y,yt+1)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-31 21:28