人大经济论坛 › 论坛 › 经济学人二区 › 外文文献专区 › QLBS Q-Learner采用NuQLear：拟合Q迭代、反向RL和

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

12 3 下一页

发帖

楼主: 何人来此

1075 25

[量化金融] QLBS Q-Learner采用NuQLear：拟合Q迭代、反向RL和 [推广有奖]

0关注
3粉丝

会员

学术权威

79%

还不是VIP/贵宾

威望: 10 级
论坛币: 10 个
通用积分: 62.5554
学术水平: 1 点
热心指数: 6 点
信用等级: 0 点
经验: 24791 点
帖子: 4194
精华: 0
在线时间: 0 小时
注册时间: 2022-2-24
最后登录: 2022-4-15

楼主

何人来此

发表于 2022-6-6 16:51:58 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

英文标题：
《The QLBS Q-Learner Goes NuQLear: Fitted Q Iteration, Inverse RL, and
Option Portfolios》
---
作者：
Igor Halperin
---
最新提交年份：
2018
---
英文摘要：
The QLBS model is a discrete-time option hedging and pricing model that is based on Dynamic Programming (DP) and Reinforcement Learning (RL). It combines the famous Q-Learning method for RL with the Black-Scholes (-Merton) model\'s idea of reducing the problem of option pricing and hedging to the problem of optimal rebalancing of a dynamic replicating portfolio for the option, which is made of a stock and cash. Here we expand on several NuQLear (Numerical Q-Learning) topics with the QLBS model. First, we investigate the performance of Fitted Q Iteration for a RL (data-driven) solution to the model, and benchmark it versus a DP (model-based) solution, as well as versus the BSM model. Second, we develop an Inverse Reinforcement Learning (IRL) setting for the model, where we only observe prices and actions (re-hedges) taken by a trader, but not rewards. Third, we outline how the QLBS model can be used for pricing portfolios of options, rather than a single option in isolation, thus providing its own, data-driven and model independent solution to the (in)famous volatility smile problem of the Black-Scholes model.
---
中文摘要：
QLBS模型是一种基于动态规划（DP）和强化学习（RL）的离散时间期权套期保值和定价模型。它结合了著名的RL Q学习方法和Black-Scholes（-Merton）模型的思想，将期权定价和套期保值问题简化为由股票和现金组成的期权的动态复制投资组合的最优再平衡问题。在这里，我们使用QLBS模型扩展了几个NuQLear（数值Q学习）主题。首先，我们研究了模型RL（数据驱动）解决方案的拟合Q迭代的性能，并将其与DP（基于模型）解决方案以及BSM模型进行比较。其次，我们为模型开发了一个反向强化学习（IRL）设置，在该设置中，我们只观察交易者采取的价格和行为（重新对冲），而不观察回报。第三，我们概述了QLBS模型如何用于期权组合定价，而不是孤立的单个期权，从而为Black-Scholes模型著名的波动率微笑问题提供了自己的、数据驱动的和模型独立的解决方案。
---
分类信息：

一级分类：Quantitative Finance 数量金融学
二级分类：Computational Finance 计算金融学
分类描述：Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法，包括蒙特卡罗，偏微分方程，格子和其他数值方法，并应用于金融建模
--
一级分类：Computer Science 计算机科学
二级分类：Machine Learning 机器学习
分类描述：Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文（有监督的，无监督的，强化学习，强盗问题，等等），包括健壮性，解释性，公平性和方法论。对于机器学习方法的应用，CS.LG也是一个合适的主要类别。
--

---
PDF下载：
-->

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：Learner Learn Arner Earn ear

相关帖子

使用道具举报

沙发

kedemingshi

发表于 2022-6-6 16:52:06 |只看作者 |坛友微信交流群

QLBS Q-Learner采用NuQLear：Fitted Q Iteration、Reverse RL和Option PortfoliosIgor HalperinNYU Tandon工程学院邮件：igor。halperin@nyu.eduJanuary2018年1月19日摘要：QLBS模型是一种基于动态编程（DP）和强化学习（RL）的离散时间期权套期保值和定价模型。它结合了著名的RL Q-Learningmethod和Black-Scholes（-Merton）模型的思想，将期权定价和套期保值问题简化为由股票和现金组成的期权的动态复制投资组合的最优再平衡问题。在这里，我们使用QLBS模型扩展了几个NuQLear（NumericalQ学习）主题。首先，我们研究了适用于模型的RL（数据驱动）解决方案的拟合迭代的性能，并将其与DP（基于模型）解决方案以及BSM模型进行了比较。其次，我们为模型开发了反向强化学习（IRL）设置，在该设置中，我们只观察交易者的价格和行为（重新对冲），而不观察回报。第三，我们概述了QLBS模型如何用于期权定价组合，而不是孤立的单个期权，从而为Black Scholesmodel著名的波动率微笑问题提供了自己的、数据驱动和模型独立的解决方案。我要感谢埃里克·伯杰和维韦克·卡普尔的激励性讨论。我感谢Bohui Xi、TianruiZhao和Yuhan Liu初步实现了QLBS模型的DP解决方案。1简介在参考文献[1]中，我们提出了QLBS模型——一种基于动态规划（DP）和强化学习（RL）的离散时间期权套期保值和定价模型。

使用道具举报

藤椅

mingdashike22

发表于 2022-6-6 16:52:14 |只看作者 |坛友微信交流群

它将著名的RL Q学习方法【2，3】与Black-Scholes（-Merton）模型的思想相结合，将期权定价和套期保值问题简化为由股票和现金组成的动态重复投资组合的最优再平衡问题【4，5】。简而言之，著名的布莱克-斯科尔斯-默顿（Black-Scholes-Merton，BSM）模型，也称为布莱克-斯科尔斯（BlackScholes，BS）模型[4，5]，表明尽管期权价格在未来可能（也将）发生变化，因为它取决于未知的未来股价，但通过使用相同商品的一个价格原则，可以找到唯一的公平期权价格，以及复制定价方法。这假设了一个持续的重新套期保值和一个特殊的（对数正态）股价动态选择。然而，期权价格如此明显的唯一性也意味着，在这些假设下，期权是完全多余的，因为它们总是可以通过股票和现金组成的简单投资组合完美复制。如【1】中更详细的论述，BSM模型中期权的明显冗余是由于后一种模型是在连续时间限制内制定的t型→ 0，套期保值以零成本持续重新平衡。在这样的学术限制下，期权是无风险的，因此是完全多余的，因为它在任何时候都等于股票和现金的动态组合。在任何其他情况下，即当时间步长t>0时，期权头寸中的风险无法完全消除，但通过在期权基础股票的有效头寸中进行适当选择，即通过最佳对冲，最多可以将风险降至最低。但在现实生活中，期权对冲的重新平衡总是以一定的频率发生t>0，例如每日、每月等。

使用道具举报

板凳

nandehutu2022

发表于 2022-6-6 16:52:22 |只看作者 |坛友微信交流群

因此，保持时间步长在期权头寸中控制风险的同时进行确定对于在任何期权定价模型中保持现实性至关重要。而经典的BSM模型在数学极限内给出了期权价格和套期保值的优雅闭合形式表达式t型→ 0，这使得其理论上的“风险中性”期权价格和套期保值在实践中存在问题，即使是作为现实世界的“零阶”近似值。事实上，由于金融市场正从事交易风险业务，任何有意义的“零阶”近似值都应考虑金融期权和其他衍生工具固有的风险。有人可能会说，在风险期权交易业务中使用均衡的“风险中性”框架进行期权定价和对冲，类似于从均衡热力学开始解释生物系统。虽然将生命描述为对非生命（这是平衡热力学中唯一可能的状态）的“修正”是荒谬的，但在连续时间数学金融学中开发的各种波动率微笑模型在期权定价中对金融风险的处理基本上是相同的。事实上，为了将基于模型的“风险中性”期权价格调整为风险期权的市场价格，传统的局部和/或随机波动率模型（见[6]）来到了Athenato的圣坛，要求她在最初的BSM模型中刚刚设计好的粘土波动率表面中注入活力！这是因为后一种模型基于两个关键假设：1）有可能进行持续的再套期保值，从而产生均衡的“风险中性”期权价格；2）世界是对数正态的，波动率固定，这意味着波动率曲面是期权行使和到期的函数。

使用道具举报

报纸

大多数88

发表于 2022-6-6 16:52:25 |只看作者 |坛友微信交流群

因为这两个假设在实践中都被违反了，原始的BSM模型与数据相矛盾，这使得它在某种程度上介于纯数学的“经济学”与理性预期理论之间，理性预期理论坚持认为，未来只有一个与之对应的最优观点，最终所有市场参与者都会围绕这一观点趋同。这一假设是荒谬的，但为了让经济理论在牛顿物理学上建模，它是必要的。”（G.索罗斯）。我感谢Vivek Kapoor提供的参考。ematical模型，以及一种技术工具，用于将市场期权价格作为BS隐含波动率报价，并使用其对股票波动率的敏感性（“vega”敏感性）和其他BS敏感性参数（“希腊”）对期权进行风险管理。通过切换到比原始BSM模型更好地“匹配市场”的本地或随机波动率模型，可以“修复”与市场数据的不匹配。但这有点“科学”货运崇拜的味道，PDE和GPU取代了稻草飞机和木制飞机。无论随机波动率模型对市场价格的拟合程度如何，它们都是交易中需要回答的第一个问题，即任何给定期权合同中的预期风险问题。他们对这样一个基本问题直截了当的回答是：“现在，你没有这个选择的风险，先生！”不用说，在物理学中，调整普朗克常数以实现与数据的一致性的量子模型将被视为毫无意义，因为普朗克常数是一个无法改变的常数，因此任何“对~”的敏感性都是毫无意义的（但请参见[7]）。然而，自1974年以来，通过将模型常数（波动率）提升为变量（局部或随机波动率）对原始BSM模型进行可能有问题的调整，以使模型与市场数据相协调，已成为市场标准。

使用道具举报

地板

大多数88

发表于 2022-6-6 16:52:29 |只看作者 |坛友微信交流群

主要原因是人们普遍认为，经典BSM模型在连续时间限制下的分析可处理性优势t型→ 0超过了其主要缺点，如与数据不一致，因此需要在原始模型中使用“fix”，如引入非恒定波动率。然而，这只带来了理论上的（和实践上的！）建模方面的噩梦，在经典的BSM模型和其他数学金融的连续时间模型中被随意丢弃但存在于市场数据中的金融风险，试图通过模型和市场行为之间的不匹配使其回到游戏中。萨蒂亚吉特·达斯（Satyajit Das）[8]将这一结果生动地描述为从业者的“希腊悲剧”。这些数学金融模型的主要问题是，它们将两个不同的问题与原始BSM模型结合在一起：（i）限额内没有风险t型→ 0和（ii）BSM模型中假设的真实世界股价动态和对数正态动态之间的差异。相反，QLBS模型按顺序处理这两个问题。它从BSM模型的离散时间版本开始，并将最优期权套期保值和定价问题重新表述为在连续马尔可夫决策过程（MDP）中通过套期保值实现风险最小化的问题。当转移概率和奖励函数已知时，该模型可通过DP求解。这就产生了期权价格和对冲的半解析解，它只涉及数值实现的矩阵线性代数[1]。另一方面，我们可能只知道MDP模型的一般结构，而不知道它的具体情况，如转移概率和奖励函数。在这种情况下，我们应该仅依靠数据样本来求解此类MDP模型的Bellman最优方程。这是强化学习的一部分，参见。

使用道具举报

7楼

nandehutu2022

发表于 2022-6-6 16:52:32 |只看作者 |坛友微信交流群

萨顿和巴托的书【9】。事实证明，在这种数据驱动和无模型的环境中，QLBS模型可以通过Watkins著名的Q学习方法求解（也是半解析的）。鉴于Q-Learning在BS模型的这种时间离散（且无分布）版本中产生了最优价格和最优套期保值，我们称之为inRef开发的模型。[1] QLBS模型。虽然参考文献[1]侧重于QLBS模型的数学Q学习（“MaQLear”），但在这里，我们通过对模型的数字Q学习（“NuQLear”）分析来扩展几个主题。首先，我们研究了RL（数据驱动）模型解决方案的拟合Q迭代（FQI）的性能，并将其与DP（基于模型）解决方案以及BSMmodel进行比较。其次，我们将模型扩展到反向强化学习（IRL）的设置中，在IRL中，我们只观察交易者采取的价格和行为（重新对冲），而不观察回报。第三，我们概述了QLBS模型如何用于期权组合定价，而不是单独的单一期权。这就需要在投资组合中对不同期权的定价保持一致。我们展示了QLBS模型如何解决这个问题，即解决了Black-Scholes模型中著名的波动率微笑问题。本文的组织结构如下。在第节中。2、我们总结了QLBS模型，并针对该模型提出了基于DP和基于RL的解决方案。第节开发了模型的IRL公式。3、“NuQLear”实验见第节。4、第节。5概述多资产（组合）环境下QLBS模型中的期权对冲和定价。最后，我们在第节中得出结论。6.2 QLBS模型QLBS模型从BSM模型的离散时间版本开始，我们从欧洲期权卖方的角度来看（例如。

使用道具举报

8楼

能者818

发表于 2022-6-6 16:52:35 |只看作者 |坛友微信交流群

看跌期权），到期日为T，到期日为T（ST），这取决于当时的最终股价统计。为了对冲期权，卖方使用出售收益建立一个复制（对冲）投资组合∏tmade of the stock Stand a risk free bank deposit Bt。对冲投资组合在任何时候的价值≤ T是∏T=atSt+Bt（1），其中atis是时间T时的股票头寸，用于对冲期权风险。由于在t=t时，应关闭期权位置，我们设置uT=0，这会在t=t时产生一个终端条件：∏t=BT=HT（ST）（2）而不是（非平稳）股价ST，我们更喜欢在模型中使用时间齐次变量Xtasstate变量，其中Xt和Stare相关如下：Xt=-u -σt+对数St<=> St=外部+u-σt（3）2.1最优值函数如[1]所示，这种离散时间集中的最优期权套期保值和定价问题可以表述为随机最优控制（SOC）问题，其中要最大化的值函数由以下表达式给出：Vπt（Xt）=Et“-∏t- λTXt=te-r（t-t） V ar[πt | Ft]Ft#（4）其中λ是一个类似马科维茨的风险规避参数[10]，fts表示时间t时股票的所有蒙特卡罗（或真实）路径的信息集，上面的脚本π表示策略π（t，Xt），该策略将时间t和当前状态Xt=Xt映射到∈ A：如[1]所示，at=π（t，xt）（5），值函数（4）满足以下Bellman方程：Vπt（xt）=EπtR（Xt，at，Xt+1）+γVπt+1（Xt+1）（6）其中，一步时间相关随机奖励定义如下：Rt（Xt，at，Xt+1）=γatSt（Xt，Xt+1）- λV ar[πt | Ft]=γatSt（Xt，Xt+1）- λγEt^∏t+1- 2at^St^∏t+1+at^St（7）式中∏t+1≡ ∏t+1-其中∏t+1是∏t+1所有值的样本平均值，类似地^St。

使用道具举报

9楼

kedemingshi

发表于 2022-6-6 16:52:38 |只看作者 |坛友微信交流群

对于t=t，我们有RT=-λV ar[πT]，其中∏T由终端条件（2）确定。最优策略π？t（·| Xt）被确定为最大化值函数vπt（Xt）：π？t（Xt）=arg maxπVπt（Xt）（8）最优值函数V？与最优策略对应的t（Xt）满足Bellmanoptimality方程V？t（Xt）=Eπ？t型Rt（Xt，ut=π？t（Xt），Xt+1）+γV？t+1（Xt+1）（9）一旦解决，则（ask）期权价格减去最优值函数：C（ask）t=-五、t（Xt）。如果系统动力学已知，Bellman最优性方程可以使用动态规划方法（如值迭代）求解。

使用道具举报

10楼

大多数88

发表于 2022-6-6 16:52:41 |只看作者 |坛友微信交流群

另一方面，如果动态未知，并且应该使用样本计算最优策略，这是一种强化学习的设置，那么基于动作-值函数的形式主义（将在下文中介绍）为值迭代方法提供了更好的框架。2.2行动价值函数行动价值函数或Q函数由价值函数（4）定义中相同表达式的期望定义，但以当前状态x和初始行动a=at为条件，同时遵循政策π：Qπt（x，a）=Et[-∏t（Xt）| Xt=x，at=a]（10）-λEπthPTt=te-r（t-t） V ar[πt（Xt）| Ft]Xt=x，at=a Q函数的Bellman方程读取[1]Qπt（x，a）=Et[Rt（Xt，at，Xt+1）| Xt=x，at=a]+γEπtVπt+1（Xt+1）Xt=x（11）最优动作值函数Q？当（10）用最优策略π？求值时，得到T（x，a）？t： π？t=arg maxπQπt（x，a）（12）最优值和状态值函数通过以下等式SV？t（x）=最大AQ？t（x，a）（13）Q？t（x，a）=Et[Rt（x，a，Xt+1）]+γE五、t+1（Xt+1）Xt=x通过替换第一个等式，获得了作用值函数的Bellman最优方程。（13）进入第二个：Q？t（x，a）=EtRt（Xt，at，Xt+1）+γ最大值+1∈AQ？t+1（Xt+1，at+1）Xt=x，at=a, t=0，T- 1（14），终端条件为t=t，由Q给出？T（XT，aT=0）=-∏T（XT）- λV ar[πT（XT）]（15），其中∏T由终端条件（2）确定。

使用道具举报

返回列表

12 3 下一页

发帖

本版微信群

加JingGuanBbs
拉您进交流群

手机版 |

意见反馈 |

帮助 |

新手入门 |

用户手册 |

友情链接 |

如有投资本站、合作意向或投放广告，请联系：13661292478（刘老师）

联系客服

邮箱：service@pinggu.org 投诉或不良信息处理：（010-68466864）

京ICP备16021002-2号京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[量化金融] QLBS Q-Learner采用NuQLear：拟合Q迭代、反向RL和 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[量化金融] QLBS Q-Learner采用NuQLear：拟合Q迭代、反向RL和 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群