楼主: mingdashike22
1800 82

[量化金融] 信号、影响和最优交易的市场自学习:无形 [推广有奖]

61
何人来此 在职认证  发表于 2022-6-10 03:10:40
对于单个大型投资者的推断,T应设置为投资者的明确规划范围。该算法给定迭代中的所有后续计算均针对该小批量进行。我们定义了小批量asFb(ω,θ)=NbXb=1TXt=0F(ω,θ,t)(102)的自由能,其中F(ω,θ,t)在公式(95)中定义,而在这里我们添加了第三个参数,以强调观测中的时间依赖性。在E步中,我们将Fb(ω,θ)相对于变分参数ω最大化。在M步中,我们计算G函数参数的更新,策略πθ作为θ的函数,然后使用这些表达式计算Fb(ω,θ)作为θ的函数。具体操作如下。在步骤1中,使用公式(A.14)计算下一次F函数的期望值,该公式用作模型参数的更新方程,或在从时间t=t的固定终端条件开始的反向递归中计算单个投资者的IRL。在步骤2中,我们使用公式(A.8)计算奖励。在步骤3中,使用等式(A.17)执行Qfunction的更新。在步骤4中,使用ingeq计算time-t F函数。(A.23)。最后,在步骤5中,使用公式(100)重新计算作为θ函数的最优策略。通过计算小批量中所有跃迁的这些量,我们得到了小批量的自由能(102)。这用于使用学习率αθ生成θ当前估计的更新。然后使用θ的新更新值来更新策略πθ的参数^A(k)、^A(k)和∑(k)po。然后,算法继续进行下一次迭代。数据:一系列状态和信号结果:奖励函数、最优策略和值函数设置学习率αθ、αω、批量Nb、初始参数θ(0)、ω(0)、^a(0)、^a(0)、σ(0)pSet k=1,同时不收敛,绘制一个新的小批量NbT步进轨迹(yt。

62
能者818 在职认证  发表于 2022-6-10 03:10:43
,yt+T)(可以为市场投资组合设置T=1)E-step:计算自由能Fb(ω,θ(k-1) )使用公式(102)更新识别模型参数ω(k)=(1- αω)ω(k-1)+ αωωFb(ω,θ(k-1) M步:最大化Fb(ω(k),θ)作为θ的函数:对于每个过渡(yt,yt+1)(对于单个投资者,取t=t-1.0)do1。计算时间t+1.2时F函数在时间t的期望值。计算报酬作为θ的函数。3、使用步骤1和2在时间t4更新Q函数。计算时间t.5时F函数的值。通过更新其均值和方差,将策略分布πθ(at | t,yt)重新计算为θ的函数。end使用公式(102)计算小批量的自由能Fb(ω(k),θ)更新参数向量θ(k)=(1- αθ)θ(k-1)+ αθθFB(ω(k),θ)使用新值θ(k)计算^A(k),^A(k),∑(k)pIncrement k=k+1算法1:自由能(IH-IF)变分EMIRL算法的看不见的手推断,该算法从市场投资组合或单个投资者的价格和信号的历史中学习奖励函数、最优策略和价值函数。6市场组合的IRL当行为不可观测或不可观测时,变分EM公式(95)提供了一种通用且可跟踪的算法,用于根据股票资本化的观测数据估计原始模型参数。以这种方式解决问题所需付出的代价是需要指定一个具有自身参数ω的变分分布,并以变分EM算法指定的方式联合估计这些参数。正如我们接下来将要展示的那样,只需将公式(100)插入市场回报模型(11),就可以获得另一种更简单的估算模型方法。

63
可人4 在职认证  发表于 2022-6-10 03:10:46
为此,我们注意到,一旦我们得到公式(100),我们就可以“忘记”它是如何使用RL、IRL、神经科学等推导出来的。,并简单地将其视为一个具有自由可调参数^a、^a和∑p的模型。公式(11)中的(100)给出了一个纯粹的市场收益计量模型,该模型可以单独作为一个模型来看待(和估计)。如下所示,这产生了一个预测股票回报率均值回归的模型。6.1市场动态:动态生成的均值反转回想一下,对于N只股票的向量,我们引入了一个大小为2N的作用向量at=[u(+)t,u(-)t] 因此,行动ut被定义为两个非负数ut=u(+)t的差异- u型(-)t=[1,-1] 在≡ 1吨-1at。因此,at的联合分布=[u(+)t,u(-)t] 由我们的高斯策略πθ(at | yt)给出。这意味着ut=u(+)t的分布-u型(-)这也是高斯分布。让我们这样写:πθ(ut | yt)=N(ut | U+Uyt,∑U)(103),这里U=1T-1A和U=1T-1A。公式(103)表示utis是一个高斯随机变量,我们可以这样写:ut=U+Uyt+ε(U)t=U+U(x)xt+U(z)zt+ε(U)t(104),其中ε(U)t~ N(0,∑u)是高斯随机噪声。这个表达式最重要的特征是,我们需要进一步研究它对状态xt的线性依赖性。如等式所示。(99)和(100),上面发展的变分EM算法表明,这种依赖性的系数应该是非消失的。这是本文中开发的模型的唯一结果,我们将在本节中使用该模型,以便根据我们的方法构建一个简单的动态市场模型。为了得到模型中的非负市场价格,我们使用等式(104)的确定性限制,其中,我们将U=U(z)=0,并替换U(x)→ φ来简化符号。

64
mingdashike22 在职认证  发表于 2022-6-10 03:10:49
Wethus得到一个简单的确定性策略ut=φxt(105)。接下来,让我们回顾一下等式。(7) 和(11),我们重复的是替换W→ w和M→ u:xt+1=(1+rt)o (xt+ut)rt- rf1=wzt- uut+ε(r)t(106),其中rf为无风险利率,zt为因子加载矩阵w的预测向量,u为具有线性影响规格的永久市场影响矩阵,ε(r)为Ehε(r)ti=0且Varthε(r)ti=∑r的残差向量。一般情况下,(106)中的第二个等式假设市场组合中所有股票的预测向量为zt。如果每个股票i有K个单独的预测因子z(i)t=[z(i)t1,…,z(i)tK],我们可以将它们叠加为zt=[z(1)t,…,z(N)t]t,这样zt的长度为KN。矩阵w的尺寸分别为N×KN。该矩阵中的每一行i在位置i,…,中只有Knon零元素,i+K(以便仅包括i的名字预测值)。这将导致矩阵w中的KN自由参数。如果需要,如果我们实施一些对称性,可以减少自由参数的数量,例如,强制要求给定扇区中所有名称的因子加载应具有相同的值。将等式(105)代入等式。(106)简化后,我们得到xt=uo φ o(1 + φ) oxt公司oφ+(1+φ)(rf+wzt)uφ(1+φ)- xt公司+ (1 + φ) o xt公司o ε(r)t(107)引入参数κt=uo φ o(1+φ),θ(zt)=φ+(1+φ)(rf+wzt)uφ(1+φ),σ(xt)√t=(1+φ)oxt(108)(此处t是一个时间步长),并替换ε(r)t→ εt,我们可以将公式(107)更具启发性地写成xt=κo xt公司o (θ(zt)- xt)t+σ(xt)√t型o εt(109)在该方程中,o 代表元素智能(Hadamard)产品。注意,该方程具有二次均值回归。它与具有线性均值回归的模型(如Ornstein-Uhlenbeck(OU)过程)截然不同。

65
nandehutu2022 在职认证  发表于 2022-6-10 03:10:52
公式(109)是本文的第二个主要结果。方程(109)描述了均值回复动力学,其中信号驱动均值回复水平θ(zt)和均值回复速度κ与市场影响参数向量u成比例。很容易看出,在市场影响消失的限度内→ 0, φ → 0,公式(109)简化为公式(11)给出的对数正态回报模型,无作用项ut:xtxt=rf+wzt+εt(110),因此,在我们的框架中,在极限u内再现了常规对数正态回归动力学(带信号)→ 0, φ → 然而,当参数u、φ很小但不为零时,等式为。(110)和(109)描述了定性不同的动力学。而等式(110)是相对于缩放变换xt的缩放不变量→ αXT由于α是标度参数,非线性人回复动力学(109)不是标度不变的。当然,这是因为我们的市场代理汇集了市场上的所有代理。由于其各自的贸易影响导致动力学依赖于维度市场影响参数u,因此由此产生的市场动力学中的尺度不变性被打破(109)。因此,即使参数κ、φ很小但不为零,等式(109)也会产生一个潜在的高度复杂的非线性动力学,具有破标度不变性和随后的多周期自相关。这些具有动态生成的平均回复水平θ(zt)的非线性动力学由具有线性二次高斯(LQG)控制ut的简单线性动力学(11)产生。我们模型的一个特点是,它对均值回归的水平和速度都有非常明确的起源。从等式中可以看出。(109),电平θ(zt)由外部信号zt驱动,这是一种直观的感觉。

66
mingdashike22 在职认证  发表于 2022-6-10 03:10:56
另一方面,恢复到此类“目标”价格值的速度与市场影响参数向量u成正比,这也会直观地产生影响。值得注意的是,我们的模型展示了自组织系统的一些典型特征,如非线性均值回复效应、均值回复产生的长期相关性以及对外部信号zt的动态适应性。因此,我们通过代理人的主动自我游戏来构建自我学习,同时模仿市场上的所有交易者,这为自我组织和决策之间的等效性提供了一个具体的说明,如【57】所述。另一个重要的评论与问题的时间尺度有关。在我们的模型中有一些。首先,我们有一个外部信号向量zt。其中每一个都有自己的弛豫时间τzk,其中k=1,K是多个信号。为简单起见,假设只有一个标量信号zt具有特征弛豫时间τz~ 1/κz,其中κz是信号的平均反转速度。这可以与系统的特征弛豫时间τx进行比较~ 1/κ. 本文的设置隐含地表示τx≤ τz,即κ≥ κz,使市场接近非均衡稳定状态,并设法在每一步消化信号zt中的新信息,并完全调整市场价格(以信息成本gt的价格,见等式(35))。另一方面,如果κ≤ κz.在这种情况下,市场将处于非平衡瞬态,没有稳态。然而,当ZT在时间t相对于其先前价值发生大幅跃升时(例如,在重大金融、经济或政治事件之后),可能会出现差异,然后继续在新的水平上轻微波动。

67
可人4 在职认证  发表于 2022-6-10 03:10:59
在这种情况下,将时间t调整为信号先前值的平均股价水平θ(zt)不是真正的动态最优,而只是一种可接受的状态。关于这种情况的进一步评论将在第节中给出。8、在一维(1D)情况下,平均回复水平θ(zt)=θ为常数,等式(109)为重定标变量st=xt/θ产生以下动力学:st=ust(1- st)+σ√tstεt,u≡ κθ由式(111)描述的t(111)动力学或其无噪声极限σ→ 0在物理和生物学中广泛遇到或使用。特别是极限σ→ 式(111)中的0描述了logistic映射动力学,例如在人口增长的Malthus-Verhulst模型中(见[55]),或在logistic映射混沌中的Feigenbaum分岔中,当3≤ u<4在等式(111)中,参见例如[47]。当σ>0时,等式(111)描述了具有乘法热噪声的logistic映射,这可能会产生高度复杂的动力学【4】。我们还可以考虑由公式(109)暗示的1D动力学的连续时间限制:dxt=κxt(θ- xt)dt+σxtdWt(112),其中wt是标准布朗运动。这一一维过程在经济学和金融学中被称为几何平均回归(GMR)过程。等效地,我们可以引入一个有标度的变量st=κxt,我们得到了=λtst- st公司dt+σstdWt,λt≡ κθt(113)是物理学文献中常用的一种形式【24】。如【24】所述,如果我们保持参数λt≡ κθt时间常数,即λt→ λ并查看系统在极限σ内的行为→ 0时,系统在λ=0时表现出二阶相变。当σ>0而θt=θ保持不变时,等式(113)有一个或两个对应于其平稳分布的两个极值的过渡点:s=0,s=κθ- νσ(114),其中ν=2和ν=1,分别用于SDE(113)的Ito和Stratonovich解释。只有当κθ>νσ时,第二个过渡点才存在。

68
kedemingshi 在职认证  发表于 2022-6-10 03:11:01
当满足该约束条件时,系统(113)会经历噪声诱导的过渡【24】。通过使用方程中变量的变化,我们可以得到方程(112)中描述的动力学的一些等效描述。特别是,如果我们定义st=1/xt,那么研究伊藤处方的随机微分方程读取st=κ - (κθ - σ) st公司dt公司- σstdWt(115),其中现在漂移在转换变量st=1/xt中变为线性。如果我们定义st=log xt/c,其中c>0是一个具有市场投资组合货币维度(如美元)的已执行数字,我们需要根据维度分析引入该维度,则可以获得另一种有用的形式。例如,我们可以选择c=hxi作为观察期内XT的时间平均值。使用Ito的处方和c的选择,st=log xt/hxi的SDE读数为SDST=κθ -σ2κ- hxiest公司dt+σdWt(116)注意,在这种形式下,噪声变为加法而不是乘法,如等式所示。(112)或(115)。另一方面,漂移成指数级。很容易看出,方程式(116)需要条件2κθ>σ,以便方程式(116)具有平稳分布。请注意,因为Xt是一家公司(或指数中的所有公司,具体取决于我们在此处使用1D设置的方式)的总市值,所以log Xt将由对数股价加上已发行股份总数得出。当后者为常数时,st=log xt/c等于股票的对数价格加上一个常数项。Dixit和Pindyck【13】使用了GMR模型(112),Ewald和Yang【17】进一步研究了该模型的性质,他们证明该过程是有界的、非负的,并且在2κθ>σ的约束下具有平稳分布。

69
kedemingshi 在职认证  发表于 2022-6-10 03:11:04
我们的模型(在多变量集合中)不是从现象学上引入这种均值回复动力学,而是从有界理性主体的底层动态优化问题中推导出来的。非平稳多元几何平均数回归过程(109)可以解释为均衡或准均衡统计过程(这是计量经济学和金融模型中通常假设的情况),也可以解释为非均衡Langevin过程【55】。在本节的其余部分中,我们假设前一种设置,而关于后一种情况的一些进一步评论将在第节中提供。8.2.6.2最大可能性IRL:市场组合在信号zt发生变化后,当市场在每个时期设法达到均衡分布(100)时,我们假设一个准均衡设置。在这种情况下,可以应用标准统计方法(如最大似然法)来估计模型。此模型下可观测数据的负对数似然函数readsLLM(Θ)=-logT公司-1Yt=0p(2π)N |∑x | e-(vt)T∑-1x(vt),vt≡xt+1- xtxt文本- κ o (θ(zt)- xt)t(117),其中xtnow代表观察到的股票市场价格,∑x=√t∑r。注意,因为模型是马尔可夫的,所以t=0的乘积,T- 1不一定意味着沿同一轨迹的跃迁的乘积,但可以看作是不对应于连续时间矩的单步跃迁的乘积。因此,可以从数据中估计的参数是平均回归速度参数κ、因子加载矩阵w和协方差矩阵∑x的向量。请注意,我们可以用转换变量st=log xt/hxi来定义,而不是用原始变量xt来定义可能性。

70
mingdashike22 在职认证  发表于 2022-6-10 03:11:08
负对数似然,当用原始观测值XT重新表示时,将与等式(117)中的高斯形式相同,其中变量VT将定义为VT=logxt+1xt- κ oθ(zt)-σ2κ- xt公司t(118)7实验在本节中,我们用市场模型公式(109)描述了我们的实验。附录C中提供了校准模型参数的更多详细信息。为了显示详细结果,我们使用DJI指数,而不是作为市场投资组合更常用的标准普尔500指数。我们分析了2010年至2017年底DJI指数中所有公司市值的每日数据。我们使用了DJI的当前组成,其中包括2016年添加的苹果。我们通过除以整个时期指数的平均总市值来重新衡量所有数据点,对于我们的数据集,这大约等于1600亿美元。与[10]类似,我们的方法采用给定的信号ZTA,并假设它们是通过搜索超出我们框架范围的“alpha”获得的。校准模型参数必然取决于预测值zt的选择。我们的目标之一是说明这种对信号选择的依赖性。为此,我们使用两组不同的预测器zt进行两组实验来测试我们的模型。我们将这两个集合构建为市值(或同等价格)的预测因子,而不是收益的预测因子。第一组预测值包括每个股票的两个预测值:完美信号和arandom信号。完美(甲骨文)信号是作为第二天实现的回报(降级)获得的。该测试可以作为模型的健全性/实现测试。预计它将提供稳定的参数校准,几乎为零的波动性,以及完美信号和随机信号估计权重之间的差异数量级。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 02:48