QLBS Q-Learner采用NuQLear：拟合Q迭代、反向RL和 - 第2页 - 外文文献专区

11楼

发表于 2022-6-6 16:52:45

“贪婪”政策π？在QLBS模型中使用的总是寻求在当前状态下使动作值函数最大化的动作：π？t（Xt）=参数最大值∈AQ？t（Xt，at）（16）2.3最优Q函数的DP解如果计算Bellmanoptimality方程（14）右侧期望的转移概率已知，则可以使用从t=t开始的反向递归，与最优策略（16）一起求解Bellman方程（14- 1和终端条件（15）。这可以用于测试环境中的基准测试，我们知道这些概率，并且知道奖励函数（7）。将一步奖励（7）代入Bellman最优方程（14），我们发现这是Q？t（Xt，at）是作用变量at的二次方：Q？t（Xt，at）=γEtQt+1Xt+1，a？t+1+ 在St公司- λγEt^∏t+1- 2at^∏t+1^St+at^St, t=0，T- 1（17）作为Q？t（Xt，at）是at的二次函数，最优动作（即对冲）a？最大化Q的t（St）？t（Xt，at）通过解析计算得出：a？t（Xt）=Eth^St^∏t+1+2γλ斯蒂特^St（18）将公式（18）重新插入公式（17），我们得到了最优作用值函数的显式递归公式：Q？t（Xt，a？t）=γEtQt+1（Xt+1，a？t+1）- λγ^∏t+1+λγ（a？t（Xt））^St, t=0，T-1（19）a在哪里？式（18）中定义了t（Xt）。实际上，用等式表示的向后递归。（19）和（18）在MonteCarlo设置中求解，其中我们假设可以访问状态变量Xt的NMCsimulated（或real）路径【1】。此外，我们假设我们选择了一组基函数{Φn（x）}。然后，我们可以扩展最佳行动（对冲）a？t（Xt）与最优Q函数Q？基函数中的t（Xt，a？t），具有随时间变化的系数：a？t（Xt）=MXnφntΦn（Xt），Q？t（Xt，a？t）=MXnωntΦn（Xt）（20）系数φnt和ωnt在t=t时向后递归计算- 1.0

12楼

nandehutu2022

发表于 2022-6-6 16:52:50

结果由以下表达式给出：φ？t=A-1tBt（21），其中（t）nm=nm CXk=1ΦnXkt型ΦmXkt型^SktB（t）n=NM CXk=1ΦnXkt型^∏kt+1^Skt+2γλSkt公司（22）和ω？t=C-1tDt（23），其中C（t）nm=nm CXk=1ΦnXkt型ΦmXkt型D（t）n=NM CXk=1ΦnXkt型Rt公司Xkt，ak？t、 Xkt+1+ γ最大值+1∈AQ？t+1Xkt+1，at+1（24）方程（21）和（23），针对t=t共同递归计算- 1.0，使用扩展的基础函数为QLBS模型提供了基于DP的解决方案的实际实现。当动态已知时，该方法可用于确定最优价格和最优套期保值。有关更多详细信息，请参阅参考文献[1]。2.4 QLBS的RL解决方案：拟合Q迭代强化学习（RL）解决了与动态规划（DP）相同的问题，即它找到了一个最优策略。但与DP不同的是，RL不假设跃迁概率和ward函数已知。相反，它依赖样本来找到最佳政策。当我们只能访问一些历史收集的数据时，我们的设置假设为批处理模式学习。可用数据由基础股票ST的一组NMCtrajectories（表示为使用公式（3）的函数）、对冲头寸at、即时回报Rt和下一时间值Xt+1：F（n）t=n给出X（n）t，a（n）t，R（n）t，X（n）t+1加班费-1t=0，n=1，NMC（25）我们假设该数据集既可以作为模拟数据，也可以作为真实的历史股价数据，结合真实的交易数据或可以跟踪给定期权的假设股票和现金复制投资组合绩效的人工数据。我们使用一种流行的批量模型Q学习方法，称为拟合Q迭代（FQI）[11，12]。该方法的出发点是选择感兴趣量的参数化模型族，即最优作用和最优作用值函数。

13楼

kedemingshi

发表于 2022-6-6 16:52:53

我们使用线性架构，其中所寻求的函数在可调参数中是线性的，然后进行优化，以找到最佳动作和动作值函数。我们使用的基函数集{Φn（x）}与上文第节中使用的基函数集相同。2.3 . 作为最优Q函数Q？t（Xt，at）是at的二次函数，我们可以将其表示为基本函数的展开式，时间相关系数由矩阵Wt:Q参数化？t（Xt，at）=1、at、atW（t）W（t）··W1M（t）W（t）W（t）··W2M（t）W（t）W（t）W（t）··W3M（t）Φ（Xt）。。。ΦM（Xt）≡ ATtWtΦ（Xt）≡ ATtUW（t，Xt）（26）等式（26）进一步重新安排，以将其转换为参数向量和向量的乘积，该向量取决于状态和动作：Q？t（Xt，at）=ATtWtΦ（X）=Xi=1MXj=1Wt公司在 ΦT（X）ij=~重量·向量在 ΦT（X）≡~此处为Wt~ψ（Xt，at）（27）表示两个矩阵的元素（Hadamard）乘积。时间相关参数的向量Wt是通过将矩阵Wt的列串联而得到的，类似地，~ψ（Xt，at）=vec在 ΦT（X）表示通过将向量a和Φ（X）的外积列串联而获得的向量。然后，可以在t=t的时间向后递归计算系数wt- 1.0[1]：~ W？t=S-1tMt（28），其中（t）nm=nm CXk=1ψnXkt，aktψmXkt，aktM（t）n=NM CXk=1ψnXkt，aktRt公司Xkt、akt、Xkt+1+ γ最大值+1∈AQ？t+1Xkt+1，at+1（29）要分析地执行（29）中第二个方程式中的最大化步骤，请注意，由于系数Wt+1，因此向量UW（t+1，Xt+1）≡ Wt+1Φ（Xt+1）（见等式（26））从上一步中已知，我们有Q？t+1Xt+1，a？t+1= U（0）W（t+1，Xt+1）+a？t+1U（1）W（t+1，Xt+1）+一t+1U（2）W（t+1，Xt+1）（30）这里需要强调的是，虽然这是a？t+1时，将其最大值的一点作为a的函数将是完全错误的？t+1是q中的最佳值。(30).

14楼

nandehutu2022

发表于 2022-6-6 16:52:56

这相当于使用相同的数据集来估计最佳行动和最佳Q函数，从而导致高估Q？t+1Xt+1，a？t+1在等式（29）中，由于Jensen不等式和max（·）函数的凸性。使用公式（30）的正确方法是，是否有一个a值？t+1使用在上一时间步应用的解析解公式（18）计算。由于分析最优措施（18）的可用性，在QLBS模型中避免了一个潜在的高估问题，即有时使用双Q学习等方法解决的经典Q学习问题[13]，从而导致数值稳定的结果。方程（28）给出了QLBS模型在无模型和有效策略设置下的解，其依赖于拟合Q迭代，这是一种无模型和有效策略算法【11，12】。3 QLBS反向强化学习（IRL）中的反向强化学习提供了（直接）RL范式的一个非常有趣和有用的扩展。在本文使用的批处理模式学习的背景下，RL的设置几乎与RL的设置相同（见等式（25）），除了没有关于奖励的信息：F（n）t=nX（n）t，a（n）t，X（n）t+1加班费-1t=0，n=1，N（31）IRL的目标通常有两个方面：（i）找到与观察到的状态和行动最一致的奖励R（N）t，以及（ii）（与RL中的目标相同）找到最佳政策和行动价值函数。我们可以区分政策内IRL和政策外IRL。在前一个案例中，我们知道观察到的行动是最佳行动。在后一种情况下，观察到的行为可能不一定遵循最优策略，并且可能是次优的或有噪声的。一般来说，IRL比RL更难解决。

15楼

能者818

发表于 2022-6-6 16:52:59

事实上，我们不仅必须从数据中找到最佳的政策，这与RL中的任务是一样的，而且我们还必须在不观察回报的情况下完成这一任务。此外，IRL的另一项任务是找到（the？）对应于观察到的状态和动作序列的奖励函数。请注意，在RL/IRL的潜在应用中，可能会比ObservaterWards更频繁地遇到缺少奖励信息的情况。特别是，当RL方法被应用于研究人类行为时，这是典型的情况，参见例[14]。IRL在机器人学中也被广泛使用，作为通过演示训练机器人的直接RLmethods的有用替代方法，参见例[15]。IRL似乎为许多金融应用程序提供了一种非常有吸引力的方法，至少在概念上是如此，这些应用程序考虑了参与顺序决策过程的理性主体，其中研究人员无法获得关于主体收到的奖励的信息。此类（半-？）的一些示例理性代理人将是贷款或抵押借款人、存款或储蓄账户持有人、信用卡持有人、云计算、移动数据、电力等公用事业的消费者。在交易应用程序中，当交易者想要了解交易对手的策略时，可能会出现这种IRL设置。她观察对方在双边交易中的行为，但不观察对方的回报。显然，如果她将最有可能的交易对手的行为从观察到的行为中逆向工程，以确定交易对手的目标（战略），她可以利用它来设计自己的战略。这是一个典型的IRL问题。虽然IRL通常比RL更难解决，而且两者都很难计算，但在QLBS模型中，由于奖励函数（7）和行动值函数（17）都是二次型，所以两者都同样容易。

16楼

mingdashike22

发表于 2022-6-6 16:53:01

此外，在数据集中只观察状态和行为而不观察奖励的一般IRL设置正好介于我们之前的两个设置之间：一个是DP设置，我们只观察状态，另一个是RL设置，我们观察状态、行为和奖励。主要区别在于，在DP设置中，我们知道模型动态，尤其包括风险规避参数λ，而在RL或IRL设置中，λ未知。因此，我们将首先假设λ是已知的，并概述IRL应如何处理QLBS模型，然后我们将讨论如何从数据中估计λ。在IRL设置中，一旦我们观察到状态XT和动作at，如果λ已知，则可以获得与这些动作对应的奖励RTC，计算方法与公式（7）中的计算方法相同。唯一的区别是，在Sec的DP溶液中。2.3我们计算了最佳行动（18）的奖励（7），在IRL设置中，我们将使用观察到的行动来插入公式（7），计算相应的奖励。然后，该算法以与Sect的OffQI解相同的方式进行。2.4，使用这些计算的奖励代替等式（29）中的观察奖励。显然，这产生了QLBS模型的相同RL和IRL解决方案，只要在RL情况下观察到的回报Rtin中的λ与IRL解决方案在等式（7）中使用的λ相同。这意味着IRL的第一个问题，即找到奖励函数，相当于QLBS模型使用公式（7）只找到一个参数λ。

17楼

可人4

发表于 2022-6-6 16:53:09

这可以使用我们接下来介绍的方法来完成。3.1最大熵IRLA通过估计其参数λ来估计一步奖励函数（7）的简单方法基于流行的最大熵（MaxEnt）IRL方法【16】的一个易于处理的版本，该方法是在【17】中在不同背景下开发的。我们首先写出与式（7）相对应的预期回报，如下所示：Rt（Xt，at）≡ Et[Rt（Xt，at，Xt+1）]=c（λ）+atc（λ）-atc（λ）（32），其中，为了简洁起见，省略对Xt的依赖，我们定义了C（λ）=-λγEth^∏t+1i，c（λ）=γEthSt+2λγ^St^∏t+1i，c（λ）=2λγEt^St（33）【17】中的MaxEnt方法假设观察不同作用数据的一步概率由指数模型Pλ（at | Xt）=Zλe'Rt（Xt，at）=rc（λ）2πexp”描述-c（λ）在-c（λ）c（λ）#（34）其中Zλ是归一化因子。因此，通过将MaxEnt方法的指数分布与二次预期回报（32）相结合，我们最终得到了QLBS中IRL的高斯行动分布（34）。显然，考虑到高斯分布的可处理性，这是一个非常好的消息。UsingEq。（34），观测数据的对数可能性nx（k）t，a（k）to）Nk=1is（忽略常数因子-第二个表达式中的log（2π）LL（λ）=logNYk=1pλa（k）tX（k）t=NXk=1对数c（k）（λ）-c（k）（λ）a（k）t-c（k）（λ）c（k）（λ）！（35）其中，i=1的c（k）i（λ），2表示在第k条路径上计算的表达式（33）。由于这是λ的凹函数，因此可以使用标准优化软件包在数值上轻松找到其唯一的最大值。注意，式（35）中的优化指的是t的一个特定值，因此该计算可以在不同的时间t内独立重复，产生一条曲线λimpl（t），该曲线可以被视为隐含风险规避参数的期限结构。还可以注意到，虽然等式（34）描述了概率高斯策略（actionprobability），但在第。

18楼

能者818

发表于 2022-6-6 16:53:13

2.4我们使用确定性的“贪婪”策略（16）。因此，如果我们在上述IRL算法中使用公式（35）估计的λ值，这可能不会产生与Sect的RL方法相同的结果。2.4. 如果不使用我们在第节中使用的Q学习（以拟合Q迭代的形式），RL和IRL方法之间的政策假设可以更加一致。2.4，我们切换到G-学习[18]，用G-函数的“软贪心最大值”替换“贪心最大值”终端等式（29）：maxat+1∈AQ？t+1（Xt+1，at+1）→ -β对数Zp（a | Xt+1）e-βGt+1（Xt+1，a）da（36）其中β是G学习的“逆温度”参数【18】。我们将G-Learning留在QLBS模型中，以供将来研究。4个NuQLear实验我们使用模拟股票价格历史ST，在初始股票价格S=100、股票漂移u=0.05和波动率σ=0.15的情况下，说明了模型在不同设置（DP、RL、IRL）下的数值性能。期权到期日为T=1年，无风险利率为r=0.03。我们考虑一种自动取款机（“at the money”）欧洲看跌期权，行使K=100。每两周进行一次重新套期保值（即。t=1/24）。我们对股票路径使用NMC=50000蒙特卡罗方案，并报告两次MC运行获得的结果，其中报告的误差等于从这些运行计算出的一个标准偏差。在我们的实验中，我们使用纯风险基础边缘，即省略等式（18）中的第二项，以便于与BSM模型进行比较。我们使用12个基函数，这些基函数在数据集中观察到的最小值和最大值之间的XT值范围内被选择为三次B样条曲线。4.1 DP解决方案在下面的实验中，我们选择了马科维茨风险规避参数λ=0.001。这提供了QLBS价格与BS价格的明显差异，同时与BS价格相差不远。ATM期权价格对λ的依赖性如图所示。

19楼

可人4

发表于 2022-6-6 16:53:16

图1：ATM看跌期权价格与风险规避参数。水平红线对应BS型号价格。误差条对应于两次MCruns的一个标准偏差。最佳套期保值、投资组合值和Q函数值的模拟路径和解决方案与Sect的DP解决方案相对应。2.3如图2所示。在方程中矩阵求逆的数值实现中。（21）和（23），我们通过添加正则化参数为10的unitmatrix来使用正则化-3、最终QLBS ATM看跌期权价格为4.90±0.12（基于两次MC运行），而BS价格为4.53。图2:MC路径子集上ATM看跌期权的DP解决方案4.2政策RL/IRL解决方案我们首次报告了通过政策学习获得的结果。在这种情况下，作为DP解决方案的一部分计算的最佳动作和方向被用作拟合Q迭代算法部分的输入。2.4和第节的IRL方法。3、除下垫料路径外。使用Sect的拟合Q迭代算法进行两次MC运行的结果。2.4如图所示。与DP解类似，我们添加了一个正则化参数为的单位矩阵-3将矩阵Ctin转化为等式（28）。请注意，因为这里我们处理的是策略学习，因此得到最优Q函数Q？t（Xt，at）及其最佳值Q？t（Xt，a？t）在图中几乎相同。由此得出的QLBS RL卖出价格为4.90±0.12，与DP值相同。正如所料，第节的IRL方法。3产生相同的结果。4.3政策学习解决方案在下一组实验中，我们将讨论政策学习。为了获得有效的政策数据，我们在每个时间步将模型的DP解计算出的最优对冲乘以区间内的arandom均匀数[1- η、 1+η]其中0<η<1是控制数据中噪声级的参数。

20楼

kedemingshi

发表于 2022-6-6 16:53:20

我们将考虑η=[0.15、0.25、0.35、0.5]的值，以测试我们算法的噪声容限。对应于这些次优操作的奖励如图3所示：两次MC运行的asub MC路径集上ATM看跌期权的策略学习RL解决方案（拟合Q迭代）。使用公式（7）获得。在图4中，我们展示了在5种不同的次优行动下获得的效果-策略学习结果。请注意，虽然这些图中的一些非单调性是由于场景数量较少所致，但我们注意到，记录数据中操作的次优性的影响相当轻微，至少对于操作中的中等噪声水平而言。只要拟合Q迭代是一种有效的策略算法，这是意料之中的。这意味着，当数据集足够大时，QLBS模型甚至可以从纯随机操作的数据中学习，特别是，如果世界是对数正态的，则可以学习BSM模型本身。图5.5期权组合中显示了噪声参数η=0.5且采用拟合Q迭代算法的两次有效政策学习MC运行的结果，而在上文和[1]中，我们研究了没有任何预先存在的期权组合的期权卖方对单一欧式期权进行套期保值和定价的问题，在这里，我们概述了期权卖方确实拥有此类预先存在的期权的情况的简单概括图4：通过有效政策FQI学习获得的期权价格的平均值和标准偏差，以及通过将每个最优行动乘以区间内的均匀随机变量对DP最优行动进行随机化获得的数据[1- η、 1+η]η=[0.15、0.25、0.35、0.5]，每个值有5种情况，2次MC运行。

[量化金融] QLBS Q-Learner采用NuQLear：拟合Q迭代、反向RL和 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群