楼主: 何人来此
1538 25

[量化金融] QLBS Q-Learner采用NuQLear:拟合Q迭代、反向RL和 [推广有奖]

21
mingdashike22 在职认证  发表于 2022-6-6 16:53:23
水平红线显示通过非策略学习获得的值,对应于η=0。投资组合,或者如果她想同时出售几个期权。在这种情况下,她需要担心新投资组合中所有期权的定价和对冲的一致性。换句话说,她必须解决她特定投资组合的可怕波动性微笑问题。在这里,我们将展示她如何使用QLBSmodel以无忧的方式完成这项工作。假设期权卖方有一个预先存在的K期权组合,市场价格为C,CK。所有这些选项都引用了一个基础状态向量(市场)XT,它可以是高维的,例如i=1的每个特定选项Ci,K仅引用市场状态Xt的一个或几个组件。或者,我们可以将普通期权价格添加为市场状态Xt的组成部分。在这种情况下,我们的动态复制投资组合将包括普通期权和基础股票。这种套期保值组合将为Carr等人引入的exotics提供静态期权hedging的动态概括。我们假设我们有一个历史数据集F,其中包括向量值市场因素、行动(对冲)和回报元组的N个轨迹观察值(与公式(25)相比):F(N)t=NX(n)t,a(n)t,R(n)t,X(n)t+1加班费-1t=0,n=1,N(37)本节的上下文先前在单独的注释“QLBSMo del中的相对期权定价”中介绍(https://papers.ssrn.com/sol3/papers.cfm?abstractid=3090608)。图5:针对两次MC运行的MC路径子集上的ATM看跌期权,使用噪声参数η=0.5进行有效策略学习的RL解决方案(拟合Q迭代)。现在,假设期权卖方希望向该预先存在的投资组合中添加另一个(奇异的)optionCe(或者,她希望出售期权C、…、CK、Ce的投资组合)。

22
nandehutu2022 在职认证  发表于 2022-6-6 16:53:27
根据异国情调期权之前是否在市场上交易过,有两种可能性。我们将逐一查看它们。在第一种情况下,奇异期权之前在市场上交易(由卖方自己或其他人)。只要交易桌标记的Delta和相关损益影响可用,我们可以简单地扩展行动向量a(n)和奖励R(n)tin公式(37),然后继续使用第节的FQI算法。2.4(或使用第3节的IRL算法,如果没有奖励)。该算法的输出将是wholeoption投资组合的最优价格,加上投资组合中所有期权的最优对冲。请注意,只要FQI是一种有效的策略算法,它就可以很好地原谅人为错误或模型错误:数据中的增量甚至不应该完全一致(请参阅上一节中的单个选项示例)。但当然,数据的一致性越高,学习最优投资组合价格Pt所需的数据就越少。一旦总投资组合C的最佳时间零值Pof,CK,CEI计算得出,奇异期权的市场一致价格只需减去:Ce=P-KXi=1Ci(38)注意,通过施工,价格CEI与所有期权价格C一致,在一定程度上,他们之间保持一致(再次,这是因为EQ学习是一种有效的策略算法)。现在考虑一个不同的情况,当奇异期权CE之前没有在市场上交易,因此该期权没有可用的历史对冲。QLBS模型的处理方式与前一种情况基本相同。

23
大多数88 在职认证  发表于 2022-6-6 16:53:30
同样,由于EQ学习是一种有效的策略算法,这意味着在刚才描述的方案中,可以使用delta和代理期权Ce(之前交易过)的奖励来代替期权Ce的实际值。与常识一致,这只会减慢学习速度,因此需要更多数据来计算奇异Ce的最优价格和对冲。另一方面,交易代理与期权卖方想要对冲和定价的实际异国情调之间的距离越近,它在数据需求方面对算法的帮助就越大。最后,当没有针对CEA的回复时,我们可以使用Sect的IRL方法。3.6总结在本文中,我们提供了[1]中开发的QLBS模型的进一步扩展,用于基于RL、数据驱动和模型独立的期权定价,包括使用该模型进行“NuQLear”(数值Q学习)实验的一些主题。特别是,我们检查了模型的DP和RL解与BSM结果的收敛性,极限λ→ 0.我们研究了期权定价的政策上和政策下RL,并表明FittedQ迭代(FQI)提供了一个合理水平的噪声容忍度,这与作为政策下算法的Q学习的一般属性相一致。这使得QLBS模型能够学习对冲和定价,即使交易员的行为(重新对冲)在不同的时间步内,或在投资组合环境中,在不同的期权之间,次优或不一致。我们为QLBS模型制定了一种反向强化学习(IRL)方法,并表明当马科维茨风险规避参数λ已知时,IRL和RL算法通过构造产生相同的结果。

24
mingdashike22 在职认证  发表于 2022-6-6 16:53:33
另一方面,当λ未知时,可以使用应用于单步跃迁的最大熵(MaxEnt)IRL[16]单独估计λ,如[17]所示。虽然这不能保证QLBS模型的RL和IRLsolutions之间的结果相同,但这可以通过在模型的RL解决方案中使用G-Learning[18]而不是Q-Learning再次得到保证。最后,我们概述了如何在期权投资组合的上下文中使用QLBS模型。QLBSmodel依靠无模型方法Q-Learning和拟合Q迭代,为著名的Black-Scholes模型的挥发分问题提供了自己的、数据驱动的和模型独立的解决方案。虽然将波动率微笑和定价期权与微笑保持一致是数学金融期权定价模型的主要目标,但这只是QLBS模型的副产品。这是因为后者是免费分发的,因此能够适应任何微笑(一组香草选项的市场报价)。正如引言和[1]中所强调的,所有数学金融的连续时间期权定价模型(包括BSM模型及其各种局部和随机波动率扩展、跳跃差异模型等)与QLBS模型之间的主要区别在于,虽然前者试图“匹配市场”,但它们对操作头寸的预期风险仍然一无所知,虽然QLBS模型将期权复制投资组合的风险收益分析作为期权对冲和定价的主要重点,类似于经典马科维茨投资组合理论中对股票的分析。参考文献[1]I.Halperin,“QLBS:Black Scholes(-Merton)世界中的Q-Learner”,https://papers.ssrn.com/sol3/papers.cfm?abstractid=3087076(2017年)。[2] C.J.Watkins,《从延迟奖励中学习》。1989年5月,英国剑桥国王学院博士论文。[3] C.J。

25
nandehutu2022 在职认证  发表于 2022-6-6 16:53:37
Watkins和P.Dayan,“Q-Learning”,机器学习,8(3-4),179-192,1992年。[4] F.Black和M.Scholes,“期权定价和公司负债”,《政治经济杂志》,第81卷(3),637-6541973年。[5] R.Merton,“理性期权定价理论”,《贝尔经济学和管理科学杂志》,第4卷(1),141-1831974年。[6] P.Wilmott,《衍生品:金融工程的理论与实践》,Wiley 1998年。[7] R.J.Scherrer,“基本无量纲常数的时间变化”,http://lanl.arxiv.org/pdf/0903.5321.[8] S.Das,《商人、枪支和金钱》,普伦蒂斯·霍尔(2006)。[9] R.S.Sutton和A.G.Barto,《强化学习:导论》,布拉德福德出版社(1998年)。[10] H.Markowitz,《投资组合选择:有效的投资多元化》,John Wiley,1959年。[11] D.Ernst、P.Geurts和L.Wehenkel,“基于树的批量模型强化学习”,机器学习研究杂志,6405-5562005。[12] S.A.Murphy,“Q学习的泛化错误”,《机器学习研究杂志》,61073-10972005。[13] H.van Hasselt,“双Q学习”,神经信息处理系统进展,2010年(http://papers.nips.cc/paper/3964-double-q-learning.pdf).[14] S.Liu、M.Araujo、E.Brunskill、R.Rosetti、J.Barros和R.Krishnan,“通过反向强化学习进行不可理解的顺序决策”,2013 IEEE第14届移动数据管理国际会议。[15] J.Kober、J.A.Bagnell和J.Peters,“机器人强化学习:调查”,《国际机器人研究杂志》,第32卷,第11期(2013),第1238-1278页。[16] B.D.Ziebart、A.Maas、J.A.Bagnell和A.K.Dey,“最大熵反向强化学习”(2008),AAAI,第1433-1438页(2008)。[17] I.Halperin,“营销反向强化学习”,https://papers.ssrn.com/sol3/papers.cfm?abstractid=3087057(2017年)。[18] R.Fox、A.Pakman和N。

26
kedemingshi 在职认证  发表于 2022-6-6 16:53:40
Tishby,“通过软更新控制强化学习中的噪音”,https://arxiv.org/pdf/1512.08562.pdf (2015).[19] P.Carr,K.Ellis,V.Gupta,“奇异期权的静态对冲”,《金融杂志》,53,3(1998),第1165-1190页。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 15:02