楼主: mingdashike22
1794 82

[量化金融] 信号、影响和最优交易的市场自学习:无形 [推广有奖]

11
何人来此 在职认证  发表于 2022-6-10 03:07:59
请注意,除了在这种框架中假设的代理的有限理性之外,它类似于强化学习的经典极点平衡问题(参见[49]),其中现在是市场投资组合充当极点的角色,我们将问题倒置。我们的模型也非常类似于指数跟踪问题,只是我们将其设置为反向优化问题,以推断其自身动态的市场观点,而不是解决为指数找到良好跟踪投资组合的正向优化问题。请注意,此类模型公式的数据可作为一级限额订单(LOB)数据随时提供(二级LOB数据可通过一组外部预测值zt纳入模型中,见下文)。这与单个交易员的(数学上相同的)投资组合优化问题不同,后者需要交易员专有的执行数据来进行模型估计。然而,如果此类交易者的专有数据可用,我们的框架可以以同样的方式用于构建交易者的概率模型。监管机构尤其可以利用这一点来监测交易所或个人交易员的活动。请注意,在单期设置中,我们的问题公式将我们带回了BL模型,在该模型中,我们没有多期交易策略,而是只有单期最优投资组合配置。另一方面,在多期公式中,它以多种方式扩展了BL模型的设置,包括观察到的行动的概率模型,该模型考虑了单期设置中不存在的影响,如动态市场影响和动态变化预测。因为我们的模型是概率的,即。

12
可人4 在职认证  发表于 2022-6-10 03:08:03
生成型,可用于动力学正向模拟。还要注意的是,在多周期环境中,市场影响引起的非线性和动态外生预测因子zt的组合可能会产生潜在的非常丰富的动态,这将由外部信号zt、通过代理交易的非线性系统反馈和不可控噪声的组合驱动。如下所示,我们的模型在准平衡环境下,使用约束凸优化的传统工具,由于其结构简单,具有二次非线性动力学,因此是可处理的。另一方面,外部信号zt有其自身的动态性,并且可能以不同的频率运行,与市场对新闻、事件和预测因素zt中其他变化的典型响应时间不同。因此,由于其非线性,并且取决于市场响应的特征时间和信号变化之间的关系,该模型可以描述具有此类非线性动力学的均衡和非均衡设置。动力学的非线性与外部信号的特定模式相结合,其变化为代理提供了新的信息,可以导致潜在的非常丰富的动力学。我们将对模型的生成特性进行探索,以供将来研究。本文的重点是从过去的数据中学习批处理模式(off-line)。当奖励可以观察到时,可以使用无模型或基于模型的强化学习(参见[49]),当奖励不可以观察到时,可以使用反向强化学习(IRL)。

13
何人来此 在职认证  发表于 2022-6-10 03:08:06
由于在我们的案例中,回报(无论是单个投资者还是“市场隐含”回报)都是不可观察的,因此我们依赖基于IRL的方法在这种环境中进行学习。我们的模型是一类基于模型的IRL方法,具有参数化的奖励函数和动力学,其中奖励没有被观察到,而是从数据中推断出来的。该方法建模的目的是通过调整模型参数从数据中推断奖励函数和行动策略。在我们的案例中,我们解决了市场最优投资组合的动态逆投资组合优化问题,我们的IRL方法推断了市场隐含的回报函数和最优的行动策略。请注意,在RL用于财务决策的典型应用中,代理人通常是(代表性或特定的)交易员或市场外部的金融机构。相反,在我们的方法中,代理人是市场本身的有限理性组成部分,因为它现在与市场密不可分,只要它保持市场最优投资组合。因此,我们的模型是市场本身的动态模型,而不是此类市场中的外部代表投资者模型。我们的模型受到IRL、信息理论、统计物理学和神经科学的启发,但它基于一步奖励的简单参数规范和动力学的简单规范。该模型是可处理的,因为动力学的非线性“仅”是二次的。此外,由于我们对代理人的“实际”奖励使用了简单的低维参数规范,因此模型的数据要求不高。

14
mingdashike22 在职认证  发表于 2022-6-10 03:08:09
该模型不需要数十年、数百年或数千年的训练数据,即使我们问题中的状态空间和动作空间都是非常高维的。在计算上,该模型相当于一个简单而透明的方案,而不是基于深度强化学习的精神的黑箱模型。这是因为该模型的简单参数化说明可以在没有复杂函数近似的情况下继续进行,而复杂函数近似通常是通过深度神经网络在深度强化学习中实现的。该模型采用的主要计算工具是(迭代版本的)通过标准的现成数值优化软件提供的传统最大似然估计方法。这可以通过TensorFlow的自动差异功能方便地完成。本文的组织结构如下。在第节中。2、我们回顾相关工作,同时提供我们框架的进一步高层细节。在第节中。3我们介绍我们的符号并描述股票投资组合。在第节中。4,我们提出了该模型的RL公式。门派5在IRL环境下重新制定模型,并提出我们对单个投资者案例的最优政策和回报函数问题的解决方案。第节讨论了整个市场的IRL问题。6、同一节介绍了作为IRL解决方案副产品获得的有效市场动力学模型。实验见第节。7、第节。8讨论了我们的结果并概述了未来的方向。第节给出了一个简短的总结。9.2相关的workOur模型建立在量化金融、强化学习、信息理论、物理学和神经科学社区分别开发的几个线程之上。

15
nandehutu2022 在职认证  发表于 2022-6-10 03:08:12
在这里,我们简要概述了这些不同领域的相关工作,这些领域与这里开发的模型有着密切的重叠,并解释了它们与我们的方法的关系。2.1市场保持何种均衡?引用杜菲的话,“虽然有重要的替代方案,但在学术界和实践中,当前估值的基本范式是竞争性市场均衡”[14]。虽然这是1997年说的话,但这一评估直到今天仍然正确。当然,基于竞争性市场均衡和/或无套利范式的标准金融模型的不足在金融界和其他学科的研究人员(尤其是物理学和计算机科学)中都没有被忽视。后一个学科为财务建模提供了许多有趣和新鲜的想法[9],[46]。特别是,基于代理的模型可以提供有趣的见解,了解金融市场在被视为不断演变的复杂系统时是如何运作的,参见例[1]。基于代理的模型面临的主要挑战是,尽管它们能够解释市场的一些程式化事实,但至少在现阶段,它们很难转化为实际有用的工具,部分原因是它们的计算复杂性很高。虽然诸如CAPM或Black-Scholes模型等模型可能会遗漏真实市场的一些重要特征,但它们在某些市场和贸易条件下也能很好地工作,而且速度很快。然而,为了更好地模拟市场流动性等效应,Amihud等人建议,研究人员不应假设竞争性市场均衡,而应假设“均衡水平的不均衡”[3]。

16
kedemingshi 在职认证  发表于 2022-6-10 03:08:16
在物理学中,这通常被称为非平衡稳态。如果我们愿意将市场视为进化和自组织的系统,将市场视为“均衡-非均衡”是有益的,因为这些系统可能与生物体有一些相似之处。玻尔兹曼和施奥丁格强调,生物体的活动在热平衡中是不可能的,并且必然依赖于利用预先存在的不平衡。换句话说,作为热力学第二定律的结果,生物体只能作为过程存在于描述热平衡的最大熵状态中,而不是处于这种状态本身。Garleanu等人提出了一种基于需求的期权定价模型,该模型不依赖于无套利假设。一位作者在[26]中提出了一种基于强化学习的期权定价模型,该模型同样不依赖无套利,而是使用无模型和数据驱动的Q-学习方法。Esipov研究了多步骤策略和市场影响导致的市场剩余效率【16】。2.2最优投资组合执行与我们的模型设置非常相似的是股票交易中的最优执行问题,这是定量金融的经典问题之一。这个问题相当于设计一个最优策略(政策),将一个大的交易订单分为几个小的部分来购买或出售某个公司的一大块股票,并按顺序购买这些部分,以便将潜在的市场影响降到最低,并且如果需要的话,执行交易的总成本也会相应降低,通过使用合适的效用函数,而不是二次效用函数,后一种模型也可以构建为无套利模型[26]。因此最小化。

17
大多数88 在职认证  发表于 2022-6-10 03:08:19
这是经纪人以及那些自己执行此类交易而不是向经纪人传递交易指令的资产管理公司和对冲基金每天解决数千次的问题。解决此类(正向)优化问题的经典方法是从建立和校准股票动态和价格影响模型开始。如果做到了这一点,下一步就是确定一个成本函数,该函数规定了在某些州采取某些行动时将观察到的损失。如果我们现在专注于只涉及市场订单而不涉及限制订单的执行策略,那么这些市场订单将是我们的行动。假设交易指令是在时间T内出售给定股票的N股。最佳行动a?皮重从(正向)优化总累计执行成本中获得,由策略πt=πt(yt)确定。这里,t是当前时间,yti是系统的状态向量,包括股票St的当前中间价、当前持有的股票数量nt,以及外部信号zt的值,这些外部信号zt可能特别包括从限额订单簿(LOB)的属性中得出的预测值。如果π?t(yt)是一个(确定性)最优策略,那么最优动作a?这仅仅是价值A?t=π?t(yt)。经典的多期最优执行问题是由Bertsimas和Lo[6]在动态规划(DP)环境中为风险中性投资者制定的,然后由Almergen和Chriss[2]扩展到风险厌恶投资者。2.3逆投资组合优化在本文中,我们考虑对上述直接优化问题的三个(相关)修改。首先,根据Black-Litterman模型[8]及其在[7]中的重新表述,我们采用动态逆优化的观点,并假设此类优化问题已经由市场本身解决。

18
大多数88 在职认证  发表于 2022-6-10 03:08:23
我们分别寻找市场隐含的临时交易政策/策略,而不是单个投资者的交易/执行策略。然而,我们的市场明智的总交易者代理与市场上几乎所有交易者做的事情是一样的,即它动态优化自己的投资组合。2.4带约束凸优化的动态投资组合管理在我们对单步回报或负交易成本的规定中,我们遵循了大量关于多期均值-方差优化的文献。Boyd等人[10]对这种均值方差优化的一种版本进行了简单的回顾。我们主要采用Boyd等人提出的投资组合模型的符号和假设,此外,我们明确引入了[10]中未考虑的预测因子和市场影响效应。文献[10]中详细讨论的多期投资组合优化的二次目标函数是在传统的DP方法中制定的,该方法假设一个已知的模型,包括一个已知的风险规避参数。2.5随机政策我们对最优执行问题的经典公式进行的第二次修改是,我们考虑随机(概率)而非确定性政策π。随机性如果我们考察所有交易者的总体行为,即市场本身,这是本文模型的主要设置,这是很有效的。如果该模型适用于个人投资者,将模型限制为仅建模市场订单可能是流动性股票的合理近似,而对于流动性有限的股票,最优策略可能涉及市场订单和限制订单的组合。

19
何人来此 在职认证  发表于 2022-6-10 03:08:26
我们的框架将扩展到针对个人投资者的混合市场和限额指令的此类设置,并将在其他地方提供。策略πt(yt)描述了一个概率分布,因此动作at成为该分布的一个样本~ π(yt),而不是固定数字。分别而言,一个最优行动将是一个最优策略的样本,a?t型~ π?(yt)。确定性策略现在可以看作是随机策略的特例,其中动作分布是狄拉克δ函数π(at | yt)=δ(at- 一t(yt))a在哪里?t(yt)是状态yt的最优动作,对应于经典DP方法的确定性策略设置。如果执行指令最终是特定的数字,而不是概率,那么这种执行指令概率建模的意义是什么?对于优化执行的正问题和逆问题,这种选择都是合理的。让我们从一个论点开始,为什么随机策略对直接优化有用。考虑到定义最优策略的参数是根据数据估计的,因此产生的政策实际上总是随机的,即使在确定性政策执行模型(如Bertsimas和Lo[6]以及Almgren和Chriss[2]模型)中没有明确认识到这一点。采用随机策略作为主要建模工具,可以显式地控制世界每种状态下最优行动的不确定性。后者可以通过政策分布的模式来确定,而围绕该值的不确定性将通过该分布的属性来确定,并且在最简单的情况下,通过预测最优行动的方差来衡量。这一论点与Marschinski et.al.提出的关于单期Markowitz型投资组合优化问题的随机而非确定性投资组合分配的论点非常相似。

20
大多数88 在职认证  发表于 2022-6-10 03:08:29
[33].在本文所采用的反向投资组合优化设置中,随机策略的有用性变得更加明显。在这种情况下,需要使用随机策略来解释生成数据中使用的策略的可能次优性。这样的事件可能与数据中每个动作的严格最优性假设不兼容,导致观察到的执行路径的概率消失。依赖随机性而非确定性策略,可以应对历史数据可能存在的次优性。2.6强化学习动态均值-方差优化设置中的确定性策略优化问题类似于Boyd等人【10】,Ritter【25】以数据驱动强化学习(RL)的方式重新表述。Ritter使用二次风险调整成本函数,考虑了基于数据的多周期投资组合优化问题的经典在线Q学习。这将问题转化为数据驱动的正向优化,通过Watkins和Dayan著名的Q-Learning(Q-Learning),在给定充分的训练数据的情况下,可以解决该问题【56】。我们的方法与Ritter的不同之处在于,我们考虑的是一种离线(批量模式)学习,并且我们没有观察到一步成本(或等效的负回报)。因此,我们的设置是IRL,而Ritter【25】考虑在线RL公式。此外,与使用离散化状态空间的[25]不同,我们使用连续状态公式。此外,Ritter考虑了给定(代表性?)投资者,而在这里,我们侧重于建模一个代理,该代理代表整个市场的有限理性部分。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 05:45