楼主: mingdashike22
618 13

[量化金融] 风险敏感的紧凑型决策树在 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
73.8216
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24862 点
帖子
4109
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
mingdashike22 在职认证  发表于 2022-6-24 02:44:06 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Risk-Sensitive Compact Decision Trees for Autonomous Execution in
  Presence of Simulated Market Response》
---
作者:
Svitlana Vyetrenko, Shaojie Xu
---
最新提交年份:
2021
---
英文摘要:
  We demonstrate an application of risk-sensitive reinforcement learning to optimizing execution in limit order book markets. We represent taking order execution decisions based on limit order book knowledge by a Markov Decision Process; and train a trading agent in a market simulator, which emulates multi-agent interaction by synthesizing market response to our agent\'s execution decisions from historical data. Due to market impact, executing high volume orders can incur significant cost. We learn trading signals from market microstructure in presence of simulated market response and derive explainable decision-tree-based execution policies using risk-sensitive Q-learning to minimize execution cost subject to constraints on cost variance.
---
中文摘要:
我们展示了风险敏感强化学习在限额订单市场中优化执行的应用。我们用马尔可夫决策过程表示基于极限订单书知识的订单执行决策;并在市场模拟器中培训交易代理,该模拟器通过从历史数据中综合市场对代理执行决策的反应来模拟多代理交互。由于市场影响,执行大量订单可能会产生巨大的成本。我们在模拟市场反应的情况下,从市场微观结构中学习交易信号,并使用风险敏感Q-学习推导基于可解释决策树的执行策略,以最小化成本方差约束下的执行成本。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Trading and Market Microstructure        交易与市场微观结构
分类描述:Market microstructure, liquidity, exchange and auction design, automated trading, agent-based modeling and market-making
市场微观结构,流动性,交易和拍卖设计,自动化交易,基于代理的建模和做市
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--

---
PDF下载:
--> Risk-Sensitive_Compact_Decision_Trees_for_Autonomous_Execution_in_Presence_of_Si.pdf (590.63 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:紧凑型 决策树 Quantitative Applications Application

沙发
何人来此 在职认证  发表于 2022-6-24 02:44:19
在模拟市场响应存在的情况下,用于自主执行的风险敏感紧凑决策树Vitlana Vyetrenko*Shaojie XuAbstractRegulation学习以优化有限订单市场的执行。我们表示,在市场模拟器中,根据限价订单账簿对交易代理进行培训,从而通过综合历史数据来实现多代理交互。由于市场影响,存在模拟市场响应的微观结构,并使用风险敏感Q-学习推导出基于决策树的可解释执行策略,以在成本差异约束下最小化执行成本。美国电气和计算机工程部,乔治亚州:Svitlana Vyetrenko。svyetrenko@jpmorgan.com>.作者于2019年*如有更改,恕不另行通知。本文的产品并非具有促进市场研究独立性的法律要求,包括但不限于禁止交易主管传播投资研究。本文并非市场调查、推荐、建议或参与任何交易的报价。这不是一份市场研究报告,也不打算这样做。过去的表现不代表税务、会计或任何其他方面,包括对您特定情况的适用性影响。J、 P.Morgan拒绝以任何方式使用本材料。1、引言1.1。问题陈述今天交易的市场量越来越大,电子交易场所表明市场订单的“买入”和“卖出”兴趣目标是可用流动性的即时消费限制订单在LOB中排队等待市场参与者账簿旁边的剩余订单(Bouchaud et al.,2002)。因此,下达限额订单不会产生差价成本。

藤椅
何人来此 在职认证  发表于 2022-6-24 02:44:22
当限价单等待与队列中的对方兴趣匹配时,它将离开。图1显示了一个可视化LOBstructure的图表。成交量价格1000200300美元25.08美元25.10美元25.12美元25.14美元25.06买入价卖出价卖出价卖出价买入价限价订单被添加到队列中。我们正在解决最小化风险调整的问题。立即执行大额市场订单将导致不利动作2015)。因此,市场参与者对min1感兴趣。如何将大型父订单拆分为小型子订单,以及在什么时候执行子订单?风险敏感的紧凑决策树,用于在模拟市场响应存在的情况下自主执行2。限制订单)或在其他市场参与者在场的情况下积极(即通过市场订单)?基于马尔可夫决策过程从LOB知识中获得的信号进行决策;并训练执行代理执行决策树给出的执行策略。1.2. 相关的workVWAP),父订单执行计划为已知的HeadVWAP(批量加权平均价格)策略,子订单的数量按照给定时间段内观察到的或预测的市场容量成比例分配。最小化总预期执行成本加上常数λ>0的独立价格回报。常数λ的选择取决于交易者对风险厌恶的直觉。马尔可夫决策过程(MDP)和动力学的发展被编码为移动应用程序的转移概率,系统的统计信息通常是未知的,而交易环境的动态性是明确的。可以以表格形式学习小型的最优策略。Asupon表格Q学习。对于连续状态空间,使用函数近似推导RL做市策略。采用基于策略梯度的RL算法签名。(Neuneier,1997)提出了一种基于Q学习的算法,用于动态和投资组合统计。

板凳
mingdashike22 在职认证  发表于 2022-6-24 02:44:25
在上述工作中,Q值是半梯度法。在设计基于RL的交易系统时,重要的是要考虑所学交易策略的可解释性。由于学习到的策略本质上是来自Veloso,1998)的函数映射,显示了如何为连续状态空间RL构建基于决策树的分类,其中状态变量数量的交替也可以改善Geist等人,2012)可以提高我们对有助于自主交易代理构建的信号的理解。然而,预期回报,由于其代表的风险,收到的回报的差异在金融应用中也非常重要。累积奖励的方差来自于在每个节点接收到的随机奖励,而这些算法很难转移到RL。(Bertsekas,1995)建议使用扩充状态空间,引入过去奖励。然而,这种方法可以显著增加状态空间,并导致学习算法效率低下,方差很大。对时间差的敏感转换函数在模拟市场响应执行策略设计的情况下,用于自主执行的风险敏感紧凑决策树。1.3. 我们的贡献本文的主要贡献是建立一个模型,为算法exedata导出紧凑的决策树策略,如果代理的规模来自历史数据,则没有考虑代理与攻击性交易的潜在市场影响之间的相互作用。提议更现实。(Mihatsch&Neunier,2002年)。请注意,通过这样做,我们不需要对奖励差异进行任何假设。交易信号,并能够解释代理人的风险。

报纸
大多数88 在职认证  发表于 2022-6-24 02:44:28
HistoricalLOB数据通常是有噪声的,因此,训练具有固有较少自由度的代理可以潜在地防止过度匹配。对于决策树执行代理培训:1。模拟器:构建LOB模拟器,能够综合激进交易的市场影响(第2节)。2、风险敏感Q-学习:通过风险敏感表格Q-学习得出决策树策略(决策树基础是从学习的表格策略推断出来的)(第3节和第4.2节)。通过最小二乘策略迭代选择特征:给定大量预选输入特征的统计显著特征数(第3.3节)。2、模拟市场环境2.1。模拟器假设SLOB使用多个LOB级别的价格和数量以及有关restingtrading代理队列位置的历史信息。当代理决定在我们的队列订单位置之外放置一个新的被动订单时,因为我们没有队列后面的信息、队列前面的信息、统一的区域信息等),因此,被动订单将根据历史LOB变化和我们的取消假设进行跟踪,并在历史交易发生时执行。我们假设最高级别的流动性可用。在模拟市场环境中剪切,历史数据的市场响应顺序在模拟环境中被动重放队列。第2.2节详细描述了模拟市场对我们积极交易的反应。此外,我们还对代理的放置决策与这些决策到达exchange的时间之间的延迟进行建模。延迟分布假设。综上所述,可以将LOB模拟器视为一个多代理的决策,前提是对匹配定义一组模拟参数ψ的某些假设。

地板
大多数88 在职认证  发表于 2022-6-24 02:44:32
我们尽可能地选择ψ。风险敏感的紧凑型决策树,可在模拟市场响应市场信号、换货订单投放交易代理市场环境其他参与者跨代理模拟市场环境模拟市场响应市场信号、换货订单投放图2的情况下自主执行。代理人。更正式地说,将执行成本的样本空间设为sp(c),c∈ C▄Pψ(C)随机时间。然后我们可以通过实验找到一组模拟器参数ψ*使得P(c)和▄Pψ(c)之间的Kullback-Leibler发散度最小化:ψ*= arg最小ψXc∈CP(c)lnP(c)~Pψ(c)。(1)2.2. 市场影响与我们的执行代理方在timet相反。我们为价格动态建模:1。不利的价格变动很可能是对我方代理行为的回应。2、在TickTimCreces或TickTimCreces采取激进行动后,在TickTimMediately出现不利价格波动的可能性。3、当VT上升时,在Tickt采取激进行动后,在Tickt立即出现不利价格波动的可能性会降低。t需要从历史LOB时间序列中分离出来,以便在时间t中达到多个级别。同样,定义为向量。此外,净利润*> t是在我们的代理人采取行动后,下一次价格向相反方向剧烈波动的时候。下一个时间步t在时间t后的积极行动为^Yt=Yt,如果vtot>CMI(2)^Yt=Yt*, ifvtot公司≤ CMI,(3)CMI>0阈值,低于该值时,大小顺序会将市场移动到≤ CMI^yt从历史时间序列yt开始,直到下一次历史上积极的代理人方向交易或历史市场反向移动发生。CMI公司∈ ψ可以通过使用冲击将根据历史数据减少来获得。3、代理人培训与市场互动,在限制风险偏好的情况下,将累计执行成本降至最低。3.1.

7
何人来此 在职认证  发表于 2022-6-24 02:44:34
订单执行的MDP制定订单执行过程可以制定为一个完整的σOtσt>tσ状态和市场状态。状态变量的任何变化so<<Otσlator,以及从一个状态到另一个状态的转移概率,以及第2节所述的市场影响综合。正如在(Nevmyvaka等人,2006年)中所述,MDP公式中的马尔可夫假设意味着在任何给定状态下的最优动作独立于代理先前的执行动作。风险敏感的紧凑决策树,用于在存在模拟市场响应的情况下自主执行,在到达时以中间价格σ执行整个父订单。通过设置eachits风险调整累积回报的执行收益率。状态:我们将状态空间设计为同时包含交易代理状态变量和市场环境变量。代理人在时间t清算。请注意,剩余位置为0的状态在我们的LOB信息中是一种自吸收终端状态,代理在时间t已知,因为BIEnvironment变量被离散化为BIN。如果每个状态变量X,X,X | S |是离散化的ton,n,n | S | S |=n×n×····×n | S |。行动:o(通过市场订单)。如第2.1节所述,如果订单为最高LOB级别的可用流动性金额。如果anorder是被动放置的,并且在LOBqueue中占据了一个位置,那么它可以在稍后完全或部分执行,也可以全部执行。否则,如果价格变动,并且新操作不考虑价格变动而进行被动替换,则现有的pendingpassive订单将被取消。奖励:或全部)。

8
能者818 在职认证  发表于 2022-6-24 02:44:37
在时间t,如果我们的待定被动或主动订单与交易中的相反利益相匹配,则将奖励RTA定义为我们的订单执行收益率:Rt=((pt- pσ)×ftsell阶(pσ- pt)×ftbuy订单(4)学习使执行收益最大化的策略。最大化风险调整后的累积回报,以及以下部分。3.2. 学习算法:风险敏感Q-learningSAγγ∈ (0,1)iSi∈ Sand选择动作AI∈ 基于这样的观察。首先,Q值函数Qπ(s,a)定义为从初始状态、初始行动a开始,遵循政策π的预期总折扣奖励:Qπ(s,a)=Eπ“∞Xi=0γtRi | S=S,A=A#。(5)π*预期总折扣奖励:π*= arg maxπQπ(s,a)。(6) Q*(s,a)=Qπ*(s,a)满足Bellman最优方程:d*= Ri+γ最大值∈逆商*(Si+1,a)- Q*(Si,Ai)ESi+1,Ri[d*] = 0。(7)Bellman最优性方程的随机近似,并将最优Q值函数的估计更新为:di=Ri+γmaxa∈A^Q(Si+1,A)-^Q(Si,Ai)(8)^Q(Si,Ai)←^Q(Si,Ai)+αidi(9)αi∈ [0,1)对应于更新每个状态操作对的步长满足:∞Xi=0αi(s,a)=∞,∞Xi=0αi(s,a)<∞, s∈ S、 a∈ A、 (10)在存在模拟市场反应的情况下,用于自主执行的风险敏感紧凑决策树EUβ(x)构造为:Uβ(x)=((1- β) x x>0(1+β)x x≤ 0, β ∈ (-1, 1). (11) Q*(Si,Ai)可以隐式定义为:d的解*= Ri+γ最大值∈逆商*(Si+1,a)- Q*(Si,Ai)ESi+1,RiUβ(d*)= 0.(12)β = 0β → 1将支持优于当前估计的估计,从而导致Q*在最差β下进行优化→ -1在风险寻求行为中。

9
mingdashike22 在职认证  发表于 2022-6-24 02:44:40
因此,改变β允许我们搜索符合我们风险偏好的策略。与风险中性环境下的Q-learning类似,风险敏感Q-learning的updatestep对修改后的Bellman最优方程(12)执行随机近似:di=Ri+γmaxa∈A^Q(Si+1,A)-^Q(Si,Ai)(13)^Q(Si,Ai)←^Q(Si,Ai)+αiUβ(di)。(14) 上述对风险敏感的转换可以结合到其他需要函数近似的RL算法中。我们采用上述定义的风险敏感Q学习和表格状态行动演示来培训我们的交易代理人。加速学习的框架。等式(14)使用一步前瞻更新Q值,而eligibilitytrace传播回收到的奖励,并沿历史更新访问状态。我们还强调,由于实时交易活动,onceQ政策可以在线不断更新。如第4.2.3.3节所述。通过状态动作值的最小二乘策略迭代函数近似进行特征选择,使我们能够考虑大型状态空间上的RL执行代理设计。第3.2节定义的风险敏感Q学习框架,用于培训风险敏感执行代理。在最后一步中,学习策略表示为决策树。我们用kφj(s,a),j=1,2,…,来近似(5)中的q值函数qπ(s,a),k: Qπ(s,a)≈~Qπ(s,a,w)=φ(s,a)>w=kXj=1φj(s,a)wj,(15),其中w∈ RK是我们必须学习的参数。然后,我们求解基于样本的线性系统的正则化解。我们在综合市场对我们交易的反应的环境中模拟大量订单执行,并在MDP中记录总转换步骤。

10
nandehutu2022 在职认证  发表于 2022-6-24 02:44:43
定义Φ(分别为Φ)∈ RN×kto为经验态作用φ(Si,Ai)>φ(Si+1,π(Si+1))>r∈ Rn要成为由Ri(Lagoudakisence算法(LSTD)(Bradtke&Barto,1996)组成的奖励向量,我们需要求解线性系统▄Aw=▄b,(16),其中▄A=▄Φ>~Φ - γ~Φ(17) §b=§Φ>§r.(18)方法(Geist et al.,2012):wλ=arg minw∈Rkkwksubject to k▄Aw-黑色≤ λ(19)λ>0编程。我们收集了大量的模拟执行样本、策略迭代算法、,LSPI的收敛性不能保证在存在模拟市场响应序列的情况下自动执行的风险敏感紧凑决策树,并且可能在错误政策之间振荡(Koller&pairs,我们进一步使用风险敏感Q-学习生成决策树。4.第3.2节中描述的结果使用高频期货数据。交易数据是公开的,由交易所提供。4.1.第3.2节中描述的风险敏感策略选择Q-学习算法使用不同的β-学习策略,如图(3)所示。β=0的情况导致所有被动订单执行。这可以通过以下事实来解释:被动执行的预期累积回报是最高的,因为在所有积极的订单安排中,买卖价差从来没有β=1,并且始终支付,方差最低,因为所有子订单β对所有积极的政策都是被动的。因此,我们观察到β选择程序与theoretiβ风险偏好非常一致。4.2.

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-21 07:12