楼主: 可人4
248 7

[量化金融] 极限订货簿动力学逆强化学习研究 [推广有奖]

  • 0关注
  • 2粉丝

会员

学术权威

77%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
46.1832
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24788 点
帖子
4166
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
可人4 在职认证  发表于 2022-6-24 04:12:10 |只看作者 |坛友微信交流群|倒序 |AI写论文
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Towards Inverse Reinforcement Learning for Limit Order Book Dynamics》
---
作者:
Jacobo Roa-Vicens, Cyrine Chtourou, Angelos Filos, Francisco Rullan,
  Yarin Gal, Ricardo Silva
---
最新提交年份:
2019
---
英文摘要:
  Multi-agent learning is a promising method to simulate aggregate competitive behaviour in finance. Learning expert agents\' reward functions through their external demonstrations is hence particularly relevant for subsequent design of realistic agent-based simulations. Inverse Reinforcement Learning (IRL) aims at acquiring such reward functions through inference, allowing to generalize the resulting policy to states not observed in the past. This paper investigates whether IRL can infer such rewards from agents within real financial stochastic environments: limit order books (LOB). We introduce a simple one-level LOB, where the interactions of a number of stochastic agents and an expert trading agent are modelled as a Markov decision process. We consider two cases for the expert\'s reward: either a simple linear function of state features; or a complex, more realistic non-linear function. Given the expert agent\'s demonstrations, we attempt to discover their strategy by modelling their latent reward function using linear and Gaussian process (GP) regressors from previous literature, and our own approach through Bayesian neural networks (BNN). While the three methods can learn the linear case, only the GP-based and our proposed BNN methods are able to discover the non-linear reward case. Our BNN IRL algorithm outperforms the other two approaches as the number of samples increases. These results illustrate that complex behaviours, induced by non-linear reward functions amid agent-based stochastic scenarios, can be deduced through inference, encouraging the use of inverse reinforcement learning for opponent-modelling in multi-agent systems.
---
中文摘要:
多智能体学习是一种很有前途的模拟金融业中群体竞争行为的方法。因此,通过外部演示学习专家代理的奖励函数对于基于代理的真实仿真的后续设计特别相关。反向强化学习(IRL)旨在通过推理获得此类奖励函数,从而将产生的策略推广到过去未观察到的状态。本文研究了IRL是否能够从真实金融随机环境中的代理人那里推断出这样的回报:限价订单簿(LOB)。我们引入了一个简单的一级LOB,其中多个随机代理和一个专家交易代理的交互被建模为一个马尔可夫决策过程。我们考虑专家报酬的两种情况:要么是状态特征的简单线性函数;或者一个复杂的,更现实的非线性函数。鉴于专家代理的演示,我们试图通过使用先前文献中的线性和高斯过程(GP)回归器以及我们自己通过贝叶斯神经网络(BNN)的方法来建模他们的潜在回报函数来发现他们的策略。虽然这三种方法都可以学习线性案例,但只有基于GP的方法和我们提出的BNN方法能够发现非线性奖励案例。随着样本数的增加,我们的BNN IRL算法的性能优于其他两种方法。这些结果表明,在基于agent的随机场景中,非线性奖励函数诱导的复杂行为可以通过推理推断出来,从而鼓励在多agent系统中使用逆强化学习进行对手建模。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Trading and Market Microstructure        交易与市场微观结构
分类描述:Market microstructure, liquidity, exchange and auction design, automated trading, agent-based modeling and market-making
市场微观结构,流动性,交易和拍卖设计,自动化交易,基于代理的建模和做市
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
--> Towards_Inverse_Reinforcement_Learning_for_Limit_Order_Book_Dynamics.pdf (424.74 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:动力学 Applications Environments interactions Quantitative

沙发
nandehutu2022 在职认证  发表于 2022-6-24 04:12:15 |只看作者 |坛友微信交流群
极限订单动态逆强化学习Jacobo Roa-Vicens1 2 Chyrine ChtourouAngelos FilosFrancisco Rul·lanYarin GalRicardo Silvabstractance。学习专家代理的奖励功能与基于代理的真实仿真的后续设计特别相关。过去使用的反向加固。本文研究了whetherlevel-LOB,其中多个随机代理和一个专家交易代理的交互被建模为马尔可夫决策过程。我们考虑状态特征的线性函数;或者,在专家代理的演示中,我们尝试使用以前文献中的线性和高斯过程(GP)回归器来回归函数,我们自己的方法通过贝叶斯神经网络。在线性情况下,只有基于GP的方法和我们提出的BNN方法才能发现非线性形式,其他两种方法可以通过推理推断出非线性数量,鼓励多智能体系统中的对手建模。英国牛津大学计算机科学系。通信地址:Jacobo Roa Vicents<Jacobo。roavicens@jpmorgan.com>.在2019年加利福尼亚州长滩举行的国际机器学习会议上,以《金融中的人工智能:多智能体学习的应用和基础设施》研讨会论文的形式发表。作者版权所有2019。1、从大量交易商和投资者处引进或出售某些证券,在透明的过程中匹配出价和报价。从这个聚合过程中产生的动态(Preis)自然属于多智能体学习的范围,以及像LOB这样的环境中的全球智能体。特别是,RLa是分析和建模离子行为的强大框架:最“简洁、稳健和可转移的任务定义”(Ng等人,2000)。

使用道具

藤椅
何人来此 在职认证  发表于 2022-6-24 04:12:18 |只看作者 |坛友微信交流群
一旦学习,这种奖励函数可以推广到状态空间的未观察区域,这是其他学习方法的一个重要优势。概述sian过程和贝叶斯神经网络应用于IRL。下面是对限额订单簿模型的正式描述。考察两种著名的IRL方法的性能,并测试基于贝叶斯Neu的额外IRL方法,并不一定反映摩根大通的观点。面向极限订单动态逆强化学习的专家agent可以是状态函数的简单线性函数。相关工作。大多数设置、平均场假设(Lasry&Lions,2007)都是为了获得一级限额订单的dynamicsMDP模型的封闭式表达式。之前曾尝试将MDP与博弈论元素相结合,对离散状态空间中大群体行为的演化进行建模(Yang等人,数据)。最近,Hendricks等人(2017年)将IRL用于在这种环境中交易的金融和活跃专家代理。We外部观察员的观点。我们简化的MDP模型可以看作是分配游戏的一种变体,由两个对手军队组成,每个军队都有数量有限的士兵,需要分配到多个地区或战场。每个领域都是由选举竞争问题赢得的,因为政党的预算有限,需要达到选民的最大数量。在我们的环境中,只使用了两个区域(最佳出价和询问),但决策取决于一个状态,因此MDP应该被视为上下文中的两个区域Blotto变体。贡献。LOB设置。我们提出的奖励函数具有明确的财务解释,并允许在基于贝叶斯神经网络的可缩放IRL方法的设置中对不同IRL方法进行灵活和可比较的测试。

使用道具

板凳
何人来此 在职认证  发表于 2022-6-24 04:12:21 |只看作者 |坛友微信交流群
结果表明,BNN能够在计算效率方面超过目标奖励。2、背景2.1。反向强化学习我们的IRL实验基于马尔可夫决策过程,a,T,r,γ,PiSATT(s,a,s)=p(s | s,a)sActiona;r(s,a)是我们想要的未知奖励函数,γ表示初始状态分布。强化学习的目标是在其一般正向公式下找到最优策略π*使你最大化PTt=0γtr(st)|π*π*Tx={(st,at)}Tt=0。奖励函数(s,a),其中我们假设π*(a | s)是一种非最优策略,其中专家演示的集合={xn}Nn=1模糊度由最大熵框架处理(Ziebart et al.,2008)。D={(snt,ant)}Tt=0}Nn=1MDP\\r=hS,A,T,γ,PiSolve MDPQ(s,A;^rθ),V(s;^rθ)IRL优化w.r.T.θ评估最大目标:p(D | rθ)^rθ图1。基于最大熵的IRL流程图。最大因果熵模型。极限订货簿动力学π的逆强化学习*(a | s)∝ exp{Q(st,at)}Qformation,规范化正向强化的目标h(·)Q(st,at)=rt(s,a)+E(st+1,…)~πhPTt=tγt(r(st,at)+H(π(·| st)))i.r(s,a)P(D | r),如Levine et al.(2011):expXiXt“Qrsi,t,ai,t- logXaexp(Qrsi,t,ai,t)#2.2。IRL方法考虑了基于高斯过程的IRL(GPIRL),以及我们通过贝叶斯神经网络(BNN IRL)的实现。

使用道具

报纸
能者818 在职认证  发表于 2022-6-24 04:12:24 |只看作者 |坛友微信交流群
这些方法定义如下:最大熵IRL。r(s)=wTφ(s)φ(s):s 7→ 基于高斯过程的IRL。提供了一种方法来推断奖励函数的值,这些约束覆盖所有状态空间,但并不常见。专家代理人。ward函数,基于GP的IRL(Levine et al.,2011),将可能推断奖励的函数空间扩展到非线性RrkθXf∈ Rn,mde定义一个有限数量的M维状态,FXFF=r(Xf)f | X,θ~ N(0,Kf,f),其中[Kf,f]i,j=kθ(xi,xj)。关于有限奖励f和θ:p(f,θ,D | Xf)=hZrp(D | r)p(r | f,θ,Xf)滴水(f,θ| Xf)p(D | r)p(r | f,θ,Xf)fθLevine et al.(2011)使用确定性训练条件(DTC)近似,这将GP后验概率减少到其平均函数。贝叶斯神经网络在IRL中的应用。已被证明收敛于GP(Neal,1995;Williamsapproximator(Cybenko,1989)。然而,这种收敛性不适用于有限nn,后者是实际使用的网络。贝叶斯神经网络是多重研究的等价物(Neal,1995;MacKay,1992;Gal&Ghahramani,2016),以其有用的正则化特性而闻名。

使用道具

地板
可人4 在职认证  发表于 2022-6-24 04:12:28 |只看作者 |坛友微信交流群
因为精确推理是ComputeallyPeterson,1987;Graves,2011年;Gal&Ghahramani,2016年)。Z={(xn,yn)}Nn=1{(xn→ yn)}Nn=1p(w)p(Z | w)后验分布q(w)可以通过贝叶斯方差(ELBO)得到:Lq=Eq[对数p(Z | w)]- KL[q(w)kp(w)]q(w)θ假设各层的权重分解为独立分布p(w),并解决优化问题:maxθLqθ在IRL问题的背景下,我们利用了不同的好处步骤:对极限订单簿动力学进行反向强化学习o推理步骤:p(D^r),获得{r(sn)=rn}Nn=1状态{sn的有限个点估计∈ S} Nn=1o学习步骤:其次,我们使用这些点估计∈ s值^r(s)∈ R、 使用的点估计数是专家演示中存在的状态数。这意味着wetimes在演示中存在。这相当于调整贝叶斯神经网络的学习率以匹配州访问计数。2.3. 限价订单簿我们的实验设置建立在限价订单簿(LOB)的基础上:LOB中存在两种类型的订单:出价(购买订单)和以或低于指定价格PB(t)购买基础资产。Pa(t)Vb(t)Va(t)lp(l)b(t),v(l)b(t)p(l)a(t),v(l)a(t)竞争力的降序排列。3、实验实验设置。交易代理(TA)和专家代理(EA trader)。对于Imaxea,它不知道其他交易的策略。EA解决了以下MDP hS,A,T,r,γ,Pi:o状态空间S.tst,是一个三维向量:st=hv(1)b(T)v(1)A(T)i(EA)(T)iT∈ S(1)v(1)b(t)v(1)a(t)∈ R+i(EA)(t)∈{-Imax,0, . . .

使用道具

7
mingdashike22 在职认证  发表于 2022-6-24 04:12:31 |只看作者 |坛友微信交流群
,+Imax}是专家代理在时间步t持有的库存。o行动空间A。行动在时间步t,通过选择体积v(EA)b(t)和v(EA)A(t)来匹配其他交易者确定的交易目标,分别以最佳出价和最高价:at=hv(EA)b(t)v(EA)A(t)iT∈ A(2)v(EA)b(t)+v(EA)A(t)≤ Nnamics如下)。EA在这里是一个积极的市场参与者,以最佳出价,而LOB另一端的交易代理只下达被动订单过渡动力学T。在每个时间步T,然后thn∈ {1,…,N}o(N)t转换器遵循随机策略:π(N)(·| st;τ(N))=Berev(1)b(t-1) τ(n)ev(1)b(t-1) τ(n)+ev(1)a(t-1) τ(n)(3) o(n)t~ π(n)(·| st;τ(n))(4)o(n)t=1o(n)t=0·τ=(τ,…,τn)专家代理未知。因此,合计中间投标订单为独立伯努利变量之和,其参数取决于环境状态和特殊温度参数τ。(Shepp&Olkin,1981),其概率质量函数可以用闭合形式表示。因为V(T A)A(T)=N- v(T A)b(T)称为信念状态bt=(v(T A)b(T),v(T A)A(T))。虽然EA只能看到inst中包含的最后一个可用LOBsnapshot,但其订单(at)的执行取决于出价和请求的数量,最终与LOB中的限额订单簿动态EA的反向强化学习匹配,他们的库存将准确地更新为净长期库存。这样就可以得到MDP的精确解。图2提供了动力学的图示奖励函数r。奖励函数的选择是状态状态行动的函数;或者等效地,在动态测试之后,下一个statest+1的情况下,使用专家代理测试所考虑的每个IRL方法:1。

使用道具

8
mingdashike22 在职认证  发表于 2022-6-24 04:12:34 |只看作者 |坛友微信交流群
线性奖励,等于EA的命中数:r(s)=N- v(1)b- v(1)a(5)EA因为总有N个订单位于战术订单中,而不是TA订单,所以可以在最大N个订单中找到EA无法匹配的订单数量。此奖励功能不会直接激励,否则会减少累积奖励。2、描述风险规避水平的指数回报经济理论(Pratt,1964)。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-9-20 08:57