楼主: mingdashike22
1794 82

[量化金融] 信号、影响和最优交易的市场自学习:无形 [推广有奖]

81
mingdashike22 在职认证  发表于 2022-6-10 03:11:43
为此,我们将等式(29)中的先验π表示为增量δat,平均值δat=^at-\'at(回想一下,我们以\'at的值为条件):π(δat | yt)=p(2π)N |∑p | exp-δat-cδatT∑-1便士在-cδat(A.18)其中cδat=^at-\'at=^A+^A(\'yt+δyt)-在(A.19)中,使用公式(44)中的该公式以及we公式。(A.17)用积分代替离散和,我们得到fπt(yt)=βlog Zt=βlogXδatπ(\'at+δat | yt)eβGπt(yt,at)=β-Nalog(2π)-对数∑p |+βδyTtGyyδyt+βδyTtGy+βg(\'yt,\'at)-cδaTt∑-1pcδat+logZd ae-aT(∑)-1便士-2βGaa)a+aTΣ-1pcδat+βGayδyt+βGa(A.20)为了简化下面的公式,我们引入了辅助量bt=\'at-^A-^A'yt,∑p=∑-1便士- 2βGaa,Γβ=β我-Σ-1便士T▄∑-1便士Σ-1p,Υβ=∑-1p∑-1pEay=Υβ^A+βИ∑-1天=GTayΥβ-^ATΓβ(A.21)Ea=^ATΥβGa+βGTay ∑-1pGa,Lβ=2β对数∑p |+对数∑p注意limβ→0Γβ=0和limβ→0Υβ= 1. 使用等式。(A.21)对于高斯积分(A.20),我们可以用公式(87)中相同的形式表示:Fπt(yt)=δyTtFyyδyt+δyTtFy+F(\'yt,\'at)(A.22),其中系数现在计算如下:Fyy=Gyy+gtayay-^ATΓβ^AFy=Gy- Daybt+^ATΥβGa+βGTay ∑-1pGa(A.23)F(\'yt,\'at)=g(\'yt,\'at)-bTtΓβbt- GTaΥβbt+βGTa ∑-1pGa- Lβ记得,我们使用离散表示法只是为了方便,而实际上是在一个连续的actionformulation中工作。附录B:单一投资者IRL在本附录中,我们将单一投资者的可观察行为视为我们模型的特殊情况。回想一下,在这种情况下,我们建立了一个特定交易者的概率模型,假设我们可以访问交易者的交易记录。该模型由等式(100)的高斯政策给出,其中等式(98)中的平均值和方差是使用交易者的交易数据计算的,被解释为交易者在交易时观察到的行为。在我们的模型中,单一投资者推断的一个主要简化是,当观察到行为时,我们不需要对atin公式(62)进行内部积分。

82
nandehutu2022 在职认证  发表于 2022-6-10 03:11:47
在这种情况下,我们需要的唯一集成是“at”上的外部集成。对于这种具有投资者特定行为和回报的环境,估计EQ参数。(A.8)等于EM算法,其长度为以下形式的一组nb轨迹的自由能(与公式(62)相比)Fs(w,θ)=NbXb=1TXt=0Zd'atq'A('at'y,w)logπθ(at'yt)pθ(yt+1,'yt,at)q'A('at'y,w),其中yt和at代表投资者组合中投资、信号和交易的观察值,存储为历史数据集(笑声),条件转移概率pθ(yt+1 | yt,at)定义在公式(76)中。算法???给出了单个投资者的完全变分EM IRL算法??。在步骤1中,使用公式(A.14)计算下一次F函数的期望值,在t=t时从固定终端条件开始的反向递归中。在步骤2中,我们使用公式(A.8)计算奖励。在步骤3中,使用Q执行Q函数的更新。(A.17)。在步骤4中,使用公式(A.23)计算时间t F函数。最后,在步骤5中,使用公式(100)重新计算作为θ函数的最优策略。通过计算小批次中所有跃迁的这些量,我们得到了小批次的自由能(102)。这用于使用学习率αθ更新θ的当前估计值。然后使用θ的新更新值来更新策略πθ的参数^A(k)、^A(k)和∑(k)po。然后,算法进行下一次迭代。数据:一系列状态和信号结果:奖励函数、最优策略和值函数设置学习率αθ、αω、批量Nb、初始参数θ(0)、ω(0)、^a(0)、^a(0)、σ(0)pSet k=1,同时不收敛,绘制一个新的小批量NbT步进轨迹(yt。

83
nandehutu2022 在职认证  发表于 2022-6-10 03:11:51
,yt+T)E步:计算自由能Fs(ω,θ(k-1) )更新识别模型参数ω(k)=(1- αω)ω(k-1)+ αωωFs(ω,θ(k-1) M步:最大化Fs(ω(k),θ),作为θ的函数:对于t=t的每个跃迁(yt,yt+1)- 1.0 do1。计算时间t+1.2时F函数在时间t的期望值。计算报酬作为θ的函数。3、使用步骤1和2在时间t4更新Q函数。计算时间t.5时F函数的值。通过更新其均值和方差,将策略分布πθ(at | t,yt)重新计算为θ的函数。end使用公式(B.1)计算小批量的自由能Fs(ω(k),θ)更新参数向量θ(k)=(1- αθ)θ(k-1)+ αθθFs(ω(k),θ)使用新值θ(k)计算^A(k),^A(k),∑(k)pIncrement k=k+1算法2:IRL算法,学习单个投资者的最优策略、回报和价值函数。附录C:DJI投资组合的校准结果在我们报告第节所述两组信号的市场模型(109)的最大似然估计结果之前。(7). 我们在公式(109)中显示了校准的日平均逆转参数κ和方差∑=σ的结果。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 05:46