楼主: 可人4
855 10

[量化金融] 基于深度强化学习的应税股票交易 [推广有奖]

  • 0关注
  • 2粉丝

会员

学术权威

76%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
49.0443
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24465 点
帖子
4070
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
可人4 在职认证  发表于 2022-6-24 12:10:49 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Taxable Stock Trading with Deep Reinforcement Learning》
---
作者:
Shan Huang
---
最新提交年份:
2019
---
英文摘要:
  In this paper, we propose stock trading based on the average tax basis. Recall that when selling stocks, capital gain should be taxed while capital loss can earn certain tax rebate. We learn the optimal trading strategies with and without considering taxes by reinforcement learning. The result shows that tax ignorance could induce more than 62% loss on the average portfolio returns, implying that taxes should be embedded in the environment of continuous stock trading on AI platforms.
---
中文摘要:
本文提出了基于平均税基的股票交易。回想一下,当出售股票时,资本收益应纳税,而资本损失可以获得一定的退税。通过强化学习,我们学习了考虑税收和不考虑税收的最优交易策略。结果表明,税收忽视会导致平均投资组合收益损失62%以上,这意味着税收应该嵌入到人工智能平台的股票连续交易环境中。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Trading and Market Microstructure        交易与市场微观结构
分类描述:Market microstructure, liquidity, exchange and auction design, automated trading, agent-based modeling and market-making
市场微观结构,流动性,交易和拍卖设计,自动化交易,基于代理的建模和做市
--
一级分类:Quantitative Finance        数量金融学
二级分类:Mathematical Finance        数学金融学
分类描述:Mathematical and analytical methods of finance, including stochastic, probabilistic and functional analysis, algebraic, geometric and other methods
金融的数学和分析方法,包括随机、概率和泛函分析、代数、几何和其他方法
--

---
PDF下载:
--> Taxable_Stock_Trading_with_Deep_Reinforcement_Learning.pdf (380.61 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:股票交易 学习的 Quantitative Mathematical mathematica

沙发
可人4 在职认证  发表于 2022-6-24 12:10:53
新加坡黄山国立大学深层强化学习应税股票交易,a0120756@u.nus.eduAbstractIn本文提出了基于平均税基的股票交易。回想一下,当出售股票时,资本收益应该纳税,而资本损失可以获得一定的退税。通过强化学习,我们学习了考虑税收和不考虑税收的最优交易策略。结果表明,税收忽视可能会导致平均投资组合回报率损失62%以上,这意味着税收应该嵌入到在AIPlatform上进行连续股票交易的环境中。1背景随时间变化的随机控制是金融交易、投资组合选择和资产配置中最重要的主题之一。在随机控制中,agent基于观测状态变量以最优方式做出决策(动作),以使其目标函数最大化。近年来,深度强化学习在训练自学习AI代理方面得到了很多成功的应用。例如,杂交DRL系统AlphaGo在Go中击败了一位人类世界冠军(David Silver,2016)。DRL算法已经应用于广泛的问题,如机器人技术(Sergey Levine&Abbeel,2016;Yan Duan&Abbeel,2016)和视频游戏(Volodymyr Mnih,2015)。此外,针对神经网络函数逼近器的强化学习提出了几种不同的方法(Volodymyr Mnih,2015;John Schulman&region policy optimization,2015;John Schulman&Abbeel,2016;John Schulman&Klimov,2017),通过强化学习交易股票可以指导和帮助代理人提高其投资组合回报。尽管在买卖股票时考虑了交易成本,但这些结果参见https://github.com/hackthemarket/gym-tradingare由于从未考虑征税,因此仍有疑问。

藤椅
可人4 在职认证  发表于 2022-6-24 12:10:56
支付税收应该是股票交易的主要关注点之一,因为税收比交易成本高得多。请注意,强化学习是基于马尔可夫决策过程(MDP)开发的,而精确的分类计算不是马尔可夫的,因此不能直接用于强化学习。美国股票市场的投资者在实现收益或亏损时,须缴纳资本增值税。实现收益后,如果持股期限至少为一年,则适用较低的长期税率αL=15%;如果持股期限少于一年,则适用较高的短期税率αS=25%。相反,当亏损实现时,投资者可以获得短期税率的退税,而不管持有期的长短。退税是指亏损可以从收益中扣除,只对剩余收益征税。我们使用平均基数和平均持有时间系统来简化路径相关的税收计算,而不影响主要的定量结果。由于当前步骤的平均基数和平均持有期仅使用最后一个时间步骤上的状态变量进行更新,因此平均基数技术可以使税收计算成为马尔可夫的。averagetax基础是投资者可以用来计算其股票持有成本、共同基金持有成本和其他应税金融产品成本的众多方法之一。众所周知,澳大利亚是采用平均计税制的国家。为了理解平均基数和平均持有期方案,我们给出了如下示例。假设投资者两年前以每股200美元的价格购买了300股股票,半年前又以每股300美元的价格购买了100股股票。现在,他以每股350美元的价格出售了总共400股股票。总成本基数为200×300美元+300×100美元=90000美元,平均基数为90000美元/(300+100)=225美元/人。

板凳
kedemingshi 在职认证  发表于 2022-6-24 12:10:59
基本加权总持有时间为200×300×2+300×100×0.5=135000(美元年),平均持有期为135000/90000=1.5年。这样,出售后的总资本收益等于(350×400美元- $225 × 400) = $50, 000. 由于平均持有期在一年以上,资本收益应按长期利率计税,因此所征收的税款等于50000美元×15%=7500美元。与税收相比,每笔交易的交易成本仅为0.1%左右~ 0.5%.因此,涉及的最大交易成本等于(200×300×0.005美元+300×100×0.005美元+350×400×0.005美元)=1150美元,远低于征收的税款。这个例子说明了在股票交易中税收对价的必要性。Min Dai&Fei(2015)提出了一个连续的随机动力学模型。2模型将股票价格st、平均基差bt和平均持有时间hta作为状态变量,股票交易问题成为一个MDP问题,我们可以用强化学习编程anAI agent。强化学习的策略梯度方法是通过计算策略梯度的估计量并将其插入随机梯度上升算法:g=EhTXt=0Atθlogπθ(at | st,bt,ht)i,(1)其中,atis是在~πθ(at | st,bt,ht)和Atis是时间步t上优势函数的估计量,优势函数π(s,b,h,a)=Qπ(s,b,h,a)- Vπ(s,b,h),其中qπ(s,b,h,a)=Eπh∞Xl=0γlrt+l | st=s,bt=b,ht=h,at=aiandVπ(s,b,h)=Eπh∞Xl=0γlrt+l | st=s,bt=b,ht=HI,γ为折现系数,RTT为时间步长的奖励。请注意,advantage函数衡量操作是否比策略的defaultbehavior更好或更差。

报纸
kedemingshi 在职认证  发表于 2022-6-24 12:11:02
Atand的乘法θlogπθ意味着政策梯度方向上的一步应该增加优于平均水平的行动的概率,并降低低于平均水平的行动的概率。我们在Schulman等人(2017)中选择了Proximal policy optimization algorithms(PPO),其性能优于其他在线policygradient方法,并且总体上在样本复杂性、简单性和墙时间之间取得了良好的平衡。我们可以证明状态过程(st,bt,ht)是马尔可夫满足的st,bt,ht≥ 回顾税收的平均基数b和平均持有期h的定义。b和h的演变取决于动作a和观察到的股价s。如果我们用时间步t的持股份额表示,那么下一个时间步的平均基数是Bt+1=st+1atat+1≤ 0,btat+st+1(at+1- at)at+1at+1<at<0,btat+st+1(at+1- at)+max(at,at+1),否则,(2)其中st+1和at+1分别是t+1时间段的股票价格和股票头寸。平均基础的更新取决于at、0和at+1之间的关系。当股票持仓量超过0时,将放弃所有historybasis记录。例如,如果atat+1≤ 0,股票仓位从短变长,或从长变短,自所有历史交易完成后,平均基数设为st+1。当at+1<at<0时,代理人决定继续做空股票,以便做空的平均基础是总成本基础btat+st+1(at+1- at)(负值)除以+1(负值)处的当前位置。在其他情况下,股票购买可以通过改变总成本基础和股票持有量来改变平均基础,而股票出售不会改变平均基础,因为股票出售会按比例减少总成本基础和股票头寸。这给出了(2)中的最后一个等式。我们已经将卖空纳入了我们的平均基准体系。

地板
mingdashike22 在职认证  发表于 2022-6-24 12:11:05
在金融领域,卖空是指出售卖方借入的证券。做空股票时,投资者借入股票并立即出售。为了完成交易,投资者通过购买股票持有人并将证券交回贷款人来弥补头寸。当购买价格低于借款时的销售价格时产生资本损失,当购买价格高于初始销售价格时产生损失。损益在交易结束时计算。同样,我们可以得到下一个时间步长ht+1的平均持有期=0 atat+1≤ 0,btat(ht+dt)bt+1at+1at+1<at<0,否则btat(ht+dt)bt+1max(at,at+1)。(3) 给定平均基数和平均持有期,我们现在计算时间步t+1的税收成本。我们首先假设st+1≥ bt.当出售股票或购买股票以减少之前的空头敞口时,资本收益实现。因此,时间步t+1的资本利得税等于(st+1- bt)h(at- a+t+1)1{at≥at+1,at≥0}- (at+a-t+1)1{at≤at+1,at≤0}iαS{ht<252}+αL{ht≥252},其中,1{}是指示符函数。如果平均持有期超过一年(252个交易日),则资本收益按长期利率计算;如果平均持有期短于一年,则按短期利率计算。现在,我们解释上面括号中的公式。当投资者以st+1的价格出售自有股票时,这意味着≥ 在+1处≥ 0、则总资本收益相等(st+1- bt)(at- 在+1)。当投资者抛售所有股票,然后继续做空股票时,即≥ 0>在+1时,资本收益仅来自washsell且等于(st+1- bt)在。将这两种情况结合起来,可以得出上述括号中的第一个公式。或者,在购买股票以减少之前的短期风险敞口时,可以实现资本收益。

7
何人来此 在职认证  发表于 2022-6-24 12:11:08
当投资者回购部分做空的股票时,即≤ 在+1处≤ 0,实收资本收益等于(st+1- bt)(在+1- 位于)。当投资者回购所有做空的股票并继续购买股票以获得正面敞口时,即≤ 0<在+1时,资本收益仅来自卖空补偿,等于(st+1- 英国电信)(-位于)。将这两种情况结合起来,得出上面括号中的第二个公式。同样,如果st+1<bt,则存在资本损失,资本损失的退税等于(bt- st+1)h(at- a+t+1)1{at≥at+1,at≥0}- (at+a-t+1)1{at≤at+1,at≤0}iαS。资本损失的税率为αS。一旦实现损失,投资者将获得短期税率的退税,无论持有期长短。退税意味着代理人可以在纳税年度使用资本损失(股票损失)抵消资本收益。如果代理没有足够的资本收益来抵消资本损失,资本损失可以用作普通收入的抵消(假设按短期税率征税),每年最高3000美元。请注意,如果我们不区分长期税和短期税,则状态变量可以选择为(s,b),并且不需要平均持有期。资本损失的退税会增加回报,而资本利得税则会从中漏出。由于资本收益税和退税会影响每个时间步的回报,因此最大化预期总回报的政策应该与不考虑税收的政策不同。为简单起见,我们考虑具有代表性的间谍股票交易。我们的数据集包括SPY从2008年11月13日至2018年11月13日的每日收盘价和交易量,如图1所示。

8
大多数88 在职认证  发表于 2022-6-24 12:11:11
我们选择时间步长dt=1表示一个交易日,每年的总交易日为252个交易日。当平均持有期h大于(小于)252时,将收取15%(25%)的资本收益,并退还25%的资本损失。也就是说,αL=0.15%,αS=0.25%。每次代理都可以做空、做多或不交易股票。我们假设每笔交易的基本股票为100股,代理人保持其股票头寸-100,0或100随时间变化。交易期限设定为5年,共T=252×5=1260个交易日。交易成本也包括在内,相当于每笔交易收益或损失的0.1%。我们创建了一个新的OpenAI健身房环境,其中每个时间步的观察值都是SPY的每日收盘价、交易量、平均基数和平均持有期。averagebasis系统基于动作的演化由(2)和(3)给出。图1:2008年11月13日至2018年11月13日期间SPDR标准普尔500 ETF信托(SPY)。为了表示该策略,我们使用与PPO相同的默认神经网络架构,具有固定长度的轨迹段,这是一个完全连接的MLP,有两个隐藏层,分别为64和64个tanh单元。最终输出层具有线性激活。通过分离的网络估计策略和价值函数。每个历元中agent和环境的交互步骤数(状态-动作对)为5000,历元数为50。政策目标中裁剪的超参数选择为0.2,GAE Lambda为0.97。策略和价值函数的学习率分别优化为0.001和0.0003。如果模型中未包含税收,则平均预期回报率为0.44,如图2顶部面板所示,这似乎很有希望。

9
可人4 在职认证  发表于 2022-6-24 12:11:14
这一可观的回报是利用价格趋势和频繁调整持有头寸的结果,与其他AI平台的结果类似。然而,这并不是很有说服力,因为在纳税年度,税收很高。股票交易的学习不应忽视税收,而应考虑税收成本的影响。我们使用PPO在有税收成本的环境中培训股票交易政策,如图2的下面板所示。在含税模型中,最优股票交易策略可以获得0.13的平均收益。为了说明在不考虑税收的情况下在模型中培训的政策的次优性(图2顶部面板中获得的政策),我们将此培训的政策应用于有税收成本的环境中,平均预期回报率下降到只有0.05。这意味着忽视税收可能导致(0.13- 0.05)/0.13=平均投资组合收益损失62%。在测试环境中,我们考虑dailytrading,它允许频繁的持股调整。如果将交易的时间步长选择为每月或更长,税收的影响可能会减弱。图2:间谍投资的平均预期回报。交易周期为5年,共252×5=1260个交易日。考虑长期和短期税收。当平均持有期大于(小于)252年时,将收取15%(25%)的资本收益,并退还25%的资本损失。小交易成本(0.1%)也包括在内。3结论在本文中,我们是第一个通过平均基础系统将税收嵌入强化学习的人。请注意,时间步t+1的确切税额计算取决于整个历史路径{si,ai}i=1,2,。。,t、 这是不可能用于强化学习的,因为随着时间的推移,状态维度会爆炸。

10
何人来此 在职认证  发表于 2022-6-24 12:11:17
通过引入平均基准bt和平均保持时间ht,强化状态变量(st,bt,ht)变为马尔可夫变量,进一步,时间步t+1的行动和税收成本仅取决于(st,bt,ht)。我们的结果表明,税务疏忽可能导致平均投资组合回报率损失62%以上,这意味着在人工智能平台的股票交易环境中税务考虑的重要性。我们的模型可以与其他股票预测或排名的深度学习模型相结合,以更好地进行股票交易。参考文献David Silver、Aja Huang、Chris J Maddison Arthur Guezlarent Sifre George van den Driessche Julian Schrittwieser Ioannis Antonoglou Veda Panneershelvam MarcLanctot等人。通过深度神经网络和树搜索掌握围棋游戏。《自然》,529(7587):484–4892016。约翰·舒尔曼(John Schulman)、谢尔盖·莱文(Sergey Levine)、彼得·阿比埃尔·迈克尔·乔丹(Pieter AbbeelMichael Jordan)和地区政策优化(region policy optimization)、菲利普·莫里茨(Philipp Moritz)。相信信任区域策略优化。第1889-18972015页。约翰·舒尔曼、菲利普·沃尔斯基、普拉夫拉·达里瓦尔·亚历克·拉德福德和克里莫夫、奥列格。近端策略优化算法。arXiv预印本arXiv:1707.063472017。约翰·舒尔曼、菲利普·莫里茨、谢尔盖·莱文·迈克尔。乔丹和阿比尔,彼得。基于广义优势估计的高维连续控制。ICLR,2016年。戴敏、刘红、陈扬和费逸忠。不对称长期/短期资本金税的最佳税收时机。第28卷,2687–27212015页。谢尔盖·莱文、切尔西·芬恩、特雷弗·达雷尔和阿贝尔、皮特。深度视觉运动策略的端到端培训。JMLR,17(39):2016年1月至40日。Volodymyr Mnih、Koray Kavukcuoglu、David Silver Andrei A Rusu Joel Vesse Marc G Bellemare Alex Graves Martin Riedmiller Andreas K Fidjeland Georg Ostrovskiet al.通过深度强化学习进行人类水平控制。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-4 13:12