楼主: mingdashike22
1796 82

[量化金融] 信号、影响和最优交易的市场自学习:无形 [推广有奖]

21
nandehutu2022 在职认证  发表于 2022-6-10 03:08:33
这将我们的方法转换为一个市场模型,而不像Ritter所考虑的案例,Ritter是一个交易者模型。二次风险调整目标函数在一个明显不同的最优期权定价和套期保值问题中被考虑,该问题采用了一种无模型、数据驱动的方法,作者之一[26,27]。这项工作中使用的方法假设有效的批量建模学习,这使得能够使用数据高效的批量RL方法,如拟合Q迭代[15,37]。我们使用Tishby和同事以G-Learning的名义提出的熵正则化强化学习,作为在噪声环境中进行强化学习的一种方法。虽然[18]假设了一个表格化的离散状态/离散动作设置,但在我们的例子中,状态和动作空间都是高维连续空间。有关信息约束马尔可夫决策过程的教程样式介绍,请参见Larsson el。al【30】。2.7逆强化学习我们引入经典投资组合优化方案的第三个修改是,假设一些关键模型参数未知。请注意,使用动态规划的正向优化始终假定动力学和模型参数已知,或使用独立模型进行估计。特别是,在直接执行优化方法中使用市场影响参数或风险规避参数之前,如果不使用其他模型对其进行估计,则很难对其进行降价。此外,交易者不一定会考虑任何效用函数,甚至可能不知道自己的风险规避参数λ。与这种DP方法不同,在我们的模型中,我们将这些参数视为未知参数,并根据历史交易数据同时估计它们和估计最优策略。

22
可人4 在职认证  发表于 2022-6-10 03:08:35
我们通过这种程序获得的结果可以解释为隐含的市场影响和风险规避参数,类似于隐含波动率如何用于期权市场中的期权定价和对冲。特别是,即使交易者可能不会考虑具有某些预定值λ的二次效用函数,他们观察到的行为也可能与此类简单效用函数一致,一些数据暗示风险规避率λ=λimp。请注意,当风险规避λ和决定市场影响的参数未知时,这也意味着一步成本(见下文)也是未知的。因此,我们的数据符合国家和行动的顺序,但它并没有揭示采取这些行动所产生的成本。从观察到的行为中估计成本(或回报)的这类问题是在动力学已知时使用逆最优控制(IOC)方法解决的,或者在动力学未知时使用逆信息学习(IRL)。在本文中,我们使用基于模型的IRL来解决这个问题。我们的框架依赖于amodel来指定一步成本、市场影响和风险度量(我们将使用正交风险度量)。在IRL文献方面,我们的方法基于【58】中开发的最大熵IRL,并在【36】中扩展到连续空间公式。一种密切相关的方法是Todorov和Li[53]的迭代二次高斯调节器(IQGR)。2.8神经科学和生物学你的方法类似于弗里斯顿及其合作者在[19,39]中提出的生命系统和大脑功能的自由能原理(FEP)方法。

23
何人来此 在职认证  发表于 2022-6-10 03:08:38
在这种形式主义下,“为了使一个有机体抵抗耗散,并作为一个自适应系统持续存在,它是嵌入其中的更大系统的一部分,与之耦合,但在统计上独立于该系统,它必须体现其环境的统计互依性和规律性的概率模型”[39]。我们的模型基于统计热力学的思想,将类似的方法应用于市场,作为一个动态的、持久的和自适应的系统,其中包含一个有限理性的RLagent,它模仿市场的“思维”,在不利环境中作为一个目标导向的“活生物体”。我们通过将该问题描述为逆强化学习来实现上述要求,即agent应该体现其环境的概率模型。在这种方法中,自由能要么作为一种通过熵在嘈杂环境中正则化(反向)强化学习的方法,如G-学习[18],要么作为一种通过对信息处理成本施加约束来建模agent有界理性决策的方法[40、52、42],或者等效地作为一种解释环境对抗性特征的方法,请参见下两节。2.9热力学、有限理性和信息论等,以及将熵和自由能引入顺序决策问题的数学等效方法,是在[40、52、42]中以信息论和物理启发的方法制定的。特别是,Ortega等人[40,42]强调,与系统中信息处理成本相对应的正则化“逆温度”参数β也可以解释为一个代理动态最大化其自由能的合理性程度(即。

24
何人来此 在职认证  发表于 2022-6-10 03:08:41
熵正则化值函数)。这种解释是通过注意到参数β决定了从给定的先前策略开始寻找更好策略的复杂性[40,42]。β大的试剂→ ∞ 为了寻求更好的政策,可以进行高度复杂(代价高昂)的搜索,因此比生活在β值较小的世界中的代理人更理性→ 在这种制度下,一个主体无法改变先前的政策,因此表现为一个非理性(熵主导)主体。因此,信息论方法为西蒙丰富的理性主体提供了一个定量且易于处理的框架【45】。2.10自我游戏、对抗性学习和自由能优化【41】中提出了对信息论有限理性的对抗性解释,其中表明,单智能体自由能优化相当于智能体与假想对手之间的博弈。在我们的模型中,我们有一个类似的设置,其中代表市场有限理性成分的代理优化其自由能。该优化相当于在具有信息处理成本的随机市场环境中对代理的投资组合进行动态优化。后者表示为值函数的entropyregulation,如下所示。如第节所示。4.6,使用[41]的方法,这种自我游戏可以等效地被视为在与敌对对手的两场比赛中进行的对抗性学习。2.11有限理性信息理论IRL(BRIT-IRL)我们的方法将最大熵IRL的思想与学习过程的有限理性信息理论解释相结合,并根据Black Litterman模型的精神,将其应用于“看不见的手”的推断。

25
何人来此 在职认证  发表于 2022-6-10 03:08:45
在将市场分割为有限理性自我和其余部分的过程中,该模型也与大脑和生物系统的自由能量方法有着很强的相似性【19,39】。在我们的方法中,这种观点作为一个动态自组织系统应用于金融市场,重点是逆向学习而非直接学习。由于我们的设置是反向学习,我们没有假设合理性程度β的某些值,而是在我们的模型中推断市场数据隐含的此类参数。这就产生了一个动态的“市场隐含”理性指数βt,它可以作为一个简单的监测统计,也可以作为市场未来事件的预测指标。如果该模型适用于个人投资者,只要有相应的自营交易数据可用,它就可以产生该特定交易者的隐含“合理性”。3投资组合采用Boyd等人提出的组合模型的符号和假设。在该模型中,n资产中头寸的美元价值i=1,n表示为向量xtwithcomponents(xt)If,表示t期初资产i的美元价值。除了资产xt,投资组合还包括无风险银行现金账户bt和无风险利率rf。然后,任何资产i中的空头头寸对应于负值(xt)i<0。周期t开始时资产的买入和卖出均价向量表示为pt,其中(pt)i>0是资产i的价格。交易ut在区间t开始时进行,因此交易后的资产价值x+TIM是确定的:x+t=xt+ut(1)总投资组合价值是VT=1Txt+bt(2),其中1是1的向量。

26
能者818 在职认证  发表于 2022-6-10 03:08:48
因此,交易后投资组合为V+t=1Txt+b+t=1T(xt+ut)+b+t=vt+1UT+b+t- bt(3)我们假设所有股票头寸的再平衡都是从银行现金账户融资的(与交易相关的额外现金成本将在下文介绍)。这就产生了以下“自我融资”约束:Tut+b+t- bt=0(4),简单地说,这意味着在股票和现金之间的财富瞬间重新分配后,投资组合价值保持不变:v+t=vt(5)交易后的投资组合v+和现金在t期初投资,直到下一期开始。t期间资产i的收益定义为(rt)i=(pt+1)i- (pt)i(pt)i,i=1,n(6)下一时间段的资产头寸由xt+1=x+t+rt给出o x+t(7),其中o 代表元素(Hadamard)产品,以及rt∈ RN是从周期t到周期t+1的资产收益向量。然后按如下方式获得下一期投资组合价值:vt+1=1tx+1=(1+rt)Tx+t=(1+rt)t(xt+ut)(8)给定一个回报向量rtin period t,投资组合价值超过arisk自由增长的变化为及物动词≡ vt+1- (1+rf)vt=(1+rt)T(xt+ut)+(1+rf)b+T- (1+右前)1文本- (1+rf)bt=(rr- rf1)T(xt+ut)(9),其中在第二个方程式中,我们使用了公式(4)。3.1终止条件市场投资组合的终止条件是根据以下要求获得的:在计划期T,所有股票头寸应等于市场指数中实际观察到的股票权重。这意味着xT=xmt,其中xMTare是时间T时标准普尔500指数的市值权重。根据公式(1),这将确定最后一个时间步的动作uT:uT=xMT- xT公司-1(10)因此,最后一步的行动uT是确定的,不受应应用于剩余行动uT的优化的影响-1.

27
能者818 在职认证  发表于 2022-6-10 03:08:52
,u。如果该模型应用于个人投资者,则规划期T是该投资者的投资期,而最终条件(10)可以由投资者投资组合的类似最终条件代替。3.2资产回报模型我们假设一期超额资产回报的线性规格如下:rt- rf1=Wzt- MTut+εt(11),其中zt是具有因子加载矩阵W的预测向量,M是具有线性影响规格的永久市场影响矩阵,ε是e[εt]=0、Vart[εt]=∑r(12)的残差向量方程(11)规定了随机回报rt,或等效的下一步股价,由外部信号zt、控制(行动)变量ut驱动,和不可控噪声εt。虽然它们在等式(11)中“对称”输入,但回报的两个驱动因素Zt和UT扮演着完全不同的角色。虽然信号ZT对于代理来说是完全外部的,但操作是可控的自由度。在我们的方法中,我们将为面向市场的投资组合寻找最佳控制。当我们设置一个适当的优化问题时,我们会解决一个最优操作。正如本文所示,这种最优控制是XT加上噪声的线性函数。将其替换回公式(11),这将产生只涉及股价的有效动态生成动力学,见第节下面的公式(109)。

28
能者818 在职认证  发表于 2022-6-10 03:08:55
6.1.3.3信号动力学和状态空间对于信号的动力学zt,与[21]类似,我们将假设K分量向量zt的简单多变量均值回归Ornstein-Uhlenbeck(OU)过程:zt+1=(I- Φ) ozt+εzt(13),其中εzt~ N(0,∑z)是噪声项,Φ是平均回复率的对角矩阵。通过将向量x和zt:yt串联起来,可以方便地形成大小为N+K的扩展状态向量yto=xtzt公司(14) 扩展向量yt描述了代理系统的完整状态,该代理对其x分量有一定的控制,但对其z分量没有控制。读者只对我们的框架得出的最终资产回报模型感兴趣,而对其推导不感兴趣,可以直接跳到等式(109)。3.4单期奖励首先考虑一种理想情况,即在时间步长t内采取行动时没有成本。采取此类行动时收到的即时随机奖励通过替换eq获得。(11) 式(9)中:R(0)t(yt,ut)=Wzt公司- MTut+εtT(xt+ut)(15)除了在理想的无摩擦世界中可以获得的奖励外,我们还必须增加因即时市场影响和交易费用而获得的(负面)奖励。此外,我们必须在时间t+1时,在新创建的投资组合中加入由于风险而产生的负回报。与【10】类似,我们选择了此类风险惩罚的一个简单的二次度量,即新状态xt+ut条件下的瞬时回报(15)的方差乘以风险规避参数λ:R(risk)t(yt,ut)=-λVarthR(0)t(yt,ut)xt+uti=-λ(xt+ut)T∑r(xt+ut)(16)为了指定瞬时市场影响的负回报(成本)和交易成本,可以方便地将每个行动u表示为两个非负行动变量su+ti,u的差异-ti公司≥ 0:uti=u+ti- u-ti,| uti |=u+ti+u-ti,u+ti,u-ti公司≥ 0(17),因此如果uti>0且uti=-u-tiif uti<0。

29
kedemingshi 在职认证  发表于 2022-6-10 03:08:58
瞬时市场影响和交易成本由以下表达式给出:R(impact)t(yt,ut)=-xTtΓ+u+t- xTtΓ-u-t型- xTtΥztR(费用)t(yt,ut)=-ν+Tu+t- ν-Tu公司-t(18)此处为Γ+,Γ-, Υ和ν+,ν-分别是矩阵值和向量值参数,在最简单的情况下,可以通过单标量乘以单位向量或矩阵来参数化。组合等式。(15,(16),(18),我们获得了最优投资组合清算问题的风险和成本调整即时回报函数的最终规格:Rt(yt,ut)=R(0)t(yt,ut)+R(风险)t(yt,ut)+R(影响)t(yt,ut)+R(费用)t(yt,ut)(19)给定行动的预期一步回报ut=u+t- u-由^Rt(yt,ut)=^R(0)t(yt,ut)+R(风险)t(yt,ut)+R(影响)t(yt,ut)+R(费用)t(yt,ut)(20)给出,其中^R(0)t(yt,ut)=Et,uhR(0)t(yt,ut)i=Wzt公司- MT(u+t- u-t)Txt+u+t- u-t型(21)式中,Et,u[·]=E[·| yt,ut]表示未来期间市场回报实现的平均值。请注意,一步预期回报(20)是其输入的二次型。我们可以使用向量表示法更明确地编写它:^R(yt,at)=ytryyyyyt+attraya+aTtRayyt+aTtRa(22),其中raa=-M- λ∑rM+λ∑rM+λ∑r-M- λ∑r, 瑞伊=-λ∑rW-Υ0 0,射线=-M- 2λ∑r- Γ+M+2λ∑r- Γ-,栈单, Ra=-ν+ν+(23)我们在设定中不承担卖空头寸,因此不包括借款成本。3.5多期投资组合优化多期投资组合优化可以等效地表示为风险和成本调整收益的最大化,如马科维茨投资组合模型中所述,或者表示为风险和成本调整交易成本的最小化。后者通常用于最优投资组合清算问题。多期风险和成本调整的报酬最大化问题readsmaximize EthPT-1t=tγt-t^Rt(yt,at)i(24),其中^Rt(yt,at)=ytryyyt+aTtRaaa+aTtRayyt+aTtRaw。r、 t。

30
mingdashike22 在职认证  发表于 2022-6-10 03:09:02
在=u+tu-t型≥ 0,以xt+u+t为准- u-t型≥ 0此处0<γ≤ 1是折扣系数。请注意,未来期间的总和t=[t,…,t- 1] 不包括最后一个周期t=t,因为最后一个动作由公式(10)确定。通过消除上述问题的符号,并将其重新表述为交易成本最小化^Ct(yt,at)=-^Rt(yt,at):最小化EthPT-1t=tγt-t^Ct(yt,at)i(25),其中^Ct(yt,at)=-^Rt(yt,at)(26)受与(24)中相同的约束。3.6动态逆投资组合优化当模型动态已知(或根据数据独立估计)时,等式(24)的动态投资组合优化问题可表述为随机最优控制(SOC)问题,也称为动态规划方法。参考文献[10]在凸投资组合优化的一般设置中采用了这种方法,另请参见该主题之前工作的参考文献。特别是,一个著名的例子是Garleanu和Pedersen的动态平均方差模型(见[21]),具有二次交易成本。我们保留了一个凸的多期投资组合公式,同时增加了市场影响和外部信号的建模,并将重点放在一个逆优化问题上,而不是像[10]中那样的一个正向优化问题上。我们可以把这个问题称为动态逆投资组合优化(InversePortfolio Optimization,DIPO)问题。这里的“动态”一词意味着一个学习到的最优策略应该与预测zt相适应。在DIPO学习中,我们假设一位专家交易员在过去已经找到了一个最优的投资组合策略,也许不是很最优。我们假设我们有一个记录,记录了由这位专家交易员执行的N次不同的接近最优策略运行,每次运行长度为T。按照RL/IRL文献的常见约定,我们可以将此数据样本称为专家演示,或专家轨迹。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 05:48