楼主: 大多数88
588 19

[量化金融] 电子商务中数据驱动学习的特点与挑战 [推广有奖]

11
大多数88 在职认证  发表于 2022-6-11 04:49:08
然而,对于何时采取行动和决定什么,培训单一的政策仍然是不够的。一种可能的解决方案是将sMDP与分层RL(HRL)耦合。HRL是一种方法,其中决策模型由决策频率不同的策略层组成,从元策略到基本策略。我们对电子交易代理的制定在很大程度上源于Kulkarni对基于规则的深层HRL的解释【Kulkarni et al.,2016】,因为我们能够在有序(无规则)的层级RL中施加合理的规则,其中元策略的时间抽象属性是从原始策略的行为或目标聚类中产生的【Bacon et al.,2017】【Fox et al.,2017】【Vezhnevetset等人,2017年】。然而,人工智能代理使用时间抽象的能力方面的核心问题仍未解决:代理在总体目标背景下对子目标和内在回报的解释,时间抽象在融合时的崩溃,在探索密集环境中的样本效率,以及深层次的层次结构。4.3算法、监管和计算挑战电子交易代理在复杂、不断发展和快速变化的环境中运行。

12
kedemingshi 在职认证  发表于 2022-6-11 04:49:11
代理的复杂性增加,从而产生更好的决策和效率提高,这可能是一个加号,但它可能会影响代理的计算性能,并最终导致部署不可行。限制代理电子交易中代理复杂性的另一个制约因素是需要理解、预见和解释其决策——从最高决策层到最低决策层。在某些地区,要求交易算法产生可预测、可控和可解释的行为:代理人不得破坏所谓的有序市场条件,代理人的操作员必须能够解释代理人的行为如何为客户产生最佳结果。分层方法在这方面很有帮助:它基于这样一种观察,即代理的决策可以分为需要不同采样频率和不同粒度级别的组。我们已经在上文中提到,层次结构和HRL带来了代理模块之间职责分离的可能性,虽然我们仍然可以在每个模块中使用神经处理和强化学习,但我们也能够管理代理的总体复杂性,我们可以更好地理解它做什么以及为什么它做什么。5分层强化学习模式5.1基于搜索的元策略优化模拟繁重学习任务训练RL代理需要多次情节展开,由于代理与其环境之间的反馈回路,每次都无法并行化。基于梯度的智能体训练存在大量的经验对,这些经验对往往是冗余和有噪声的。

13
大多数88 在职认证  发表于 2022-6-11 04:49:14
在训练过程中,良好的行为会被遗忘,除非学习算法严重偏离了策略,而涉及移动目标的梯度优化的成功是很难保证的。因此,尽管政策学习算法最近取得了进展,但使用参数搜索算法追求无梯度优化仍然是一个实际的选择。我们通过应用超参数优化技术来训练参数化代理在全范围控制中的情景效用,取得了相当大的时间效率【Osborne等人,2009年】【Bergstra等人,2011年】,这也提高了整体执行性能,而无需处理奖励设计。我们希望强调参数搜索算法的学习效率。通过探索使用不太确定的优化,每次试验的样本集更少,但并行运行。尽早停止无趣的路径是两者之间的一个很好的折衷。然而,我们希望通过早期停止的贝叶斯方法继续这一发展路线。5.2针对低级决策过程的可扩展深度强化学习在上一节中,我们提到了电子交易代理开发面临的一些挑战:部分可观察的环境、细粒度市场动态、代理观察结果及其总体业务目标之间可能存在的时间范围不可通约性,巨大的状态空间,以及延迟和可能交错的奖励。构建的模拟环境中的代理试图再现环境的一些特性,模拟真实市场对代理行为的反应。初步看来,这需要一个支持可扩展仿真和可扩展RL算法的体系结构。

14
kedemingshi 在职认证  发表于 2022-6-11 04:49:17
Gorila架构【Nair等人,2015年】说明了DQN算法【Mnih等人,2013年】如何在规模上得到应用,从而产生更好的结果。对于A3C【Mnih等人,2016年】,最近通过IMPALA算法实现了类似的功能【Espeholt等人,2018年】。一般来说,是否以及如何扩展其他RL算法方案以利用大规模集群计算,从而获得性能更好的策略,这是一个有趣的问题。对于希望利用可用计算资源针对其用例使用特定算法的实践者来说,基于证据的指南将非常有用。一个令人兴奋的发展是出现了开源RL框架,如OpenAI基线【Dhariwal等人,2017年】、ELF【Tian等人,2017年】、Horizon【Gauci等人,2018年】、dopamine【Bellemare等人,2018年】、TRFL【Deepmind,2018年】和Ray RLlib【Moritz等人,2017年】。这些框架和工具已经使最先进的强化学习算法能够为更多的读者所接受。然而,前面提到的RL框架还很年轻,远没有像Google TensorFlow、PyTorch、orRL等流行的深度学习库那样成熟和“生产就绪”,这将大大有助于扩展RL方法的可访问性。我们发现Ray RLlib很有用。它是在分布式强化学习的基础上从头开始构建的。它的基础是一个坚实的基础设施,该基础设施利用任务并行和参与者模型【Aghaand Hewitt,1987】编程模式,即编程范式,已证明在设计高效、大规模分布式计算系统方面非常成功【Armstrong,2010】。RL实验可能非常耗时,通常在一系列部分实验中完成,有时会被故障中断。Ray的设计【Moritz等人,2017年】也解决了容错问题。

15
mingdashike22 在职认证  发表于 2022-6-11 04:49:20
必须拥有通用、多功能和高效的工具来提高生产率,例如易于使用和低成本的RL培训监控和支持。从计算性能的角度来看,RL算法的另一个挑战是选择调度器。它允许用户以代码注释的形式陈述资源需求,例如CPU、GPU或自定义资源的数量。这可用于在高级别上优化任务的计算性能,而无需用户理解或干预任务调度。6结果的不确定性和经典强化学习理论的不足在大多数标准RL应用程序中,代理的奖励被假定为确定性的。与这一假设相反,电子交易代理通常在结果不确定性内置的环境中运作。在隐藏的数据生成过程之上,很容易将这种不确定性称为“噪音”,这确实是默认近似值。在数据驱动的机器学习文化和算法文化中,结果的不确定性不是“噪音”,而是它的工作方式。我们不能简单地将市场的不确定性聚合起来,因为它在工具上很重要。正如我们在本文其他章节中所展示的,电子交易结果的价值是多重的、限制和客户的指示,我们还需要有一种稳健的方式来纳入软约束和禁止行为的层次结构。这种结果固有的不确定性和丰富的奖励多维结构挑战了标准的RL理论,在该理论中,代理人学习的行动能够在平均水平上产生更好的标量值结果。在财务方面,我们也重视总体结果,但也重视结果分布的尾部。

16
kedemingshi 在职认证  发表于 2022-6-11 04:49:23
我们需要一种将两者结合起来的方法。已经提出了对标准RL方法的轻度扩展:纳入效用函数,以评估多维和不确定的结果。正如在投资组合建设(portfolioconstruction)等其他金融应用程序中一样,代理学习确定性等效意义上的良好行为:不确定的结果和未来的分布。例如,考虑一个有限流程的标量不确定奖励的情况(允许我们忽略折扣因素),其中全局奖励是本地奖励的总和。该案例反映了非典型的电子交易设置:为了在资产的每股基础上提供最佳可能结果,标准RL方程为(另见Bühler et al.(2018)和Mihatsch and Neueier【2002】):CE(π(ai | si))=U-1E级Uri+1(π(ai | si))+maxπ(ai+1 | si+1)CE(π(ai+1 | si+1))(1) whereUandU-1是效用函数及其逆函数,Edenotes期望,CEdenotes certaintyCE(·)=U-1E[U(·)]π(ai | si)πsiri+1(π(ai | si))是它的不确定回报。与传统RL相比,效用函数和确定性等效行动排序的使用引入了更加丰富的代理结构:在CERL中,代理获得了基于其风险偏好和约束以及由总体业务目标施加的目标的特征,无论多么原始。如果客户厌恶风险,则结果的不确定性增加会导致贴现系数γ。在经典RL中,它通常被引入为有限或近有限过程的外生参数。在CERL中,随着我们对未来的进一步展望,结果分布的扩大(相当于风险的增加)自然会产生这种结果。7结论还有许多问题。

17
kedemingshi 在职认证  发表于 2022-6-11 04:49:26
我们希望他们能为具有挑战性的问题增添新的视角是否有一种严格的方法来解释多维奖励如何将持续时间不确定的过程的概念纳入MDP范式如何应对不确定的结果/回报如何为市场运营代理创造现实的培训环境?一种可能的解决方案是开发全面的艺术环境,现实地再现市场。模拟的多代理市场将具有实用价值和学术价值如何将冲突/互补的本地和全球奖励严格结合起来除了使用领域知识来分离不同时间尺度的过程,并使用分层培训,是否有一种严格的方法来设计在多个时间尺度上运行的代理可扩展性:在电子交易中,培训许多在类似但最终不同的环境中运行的代理似乎在计算上很有效,而不是培训一个代理来处理所有环境。针对不同环境培训的代理是否有办法从彼此的技能中获益?除了测试它们的功能外,还有什么方法可以判断两个受过训练的代理本质上是相似的吗仅适用于全局奖励是本地奖励的顺序聚合的流程。是否可以开发一种更通用的顺序决策方法,将上述特征结合起来是否有一种平衡和系统的方法,一方面可以让受过RL培训的代理了解其行为并解释其行为。参考面向对象编程研究方向,第49-74页。麻省理工学院,1987年。Nima Akbarzadeh、Cem Tekin和Mihaela van der Schaar。限额订单交易执行在线学习。IEEE Trans。信号处理,66(17):4626–46412018。乔·阿姆斯特朗。爱尔兰。公社。ACM,53(9):68–752010。

18
能者818 在职认证  发表于 2022-6-11 04:49:29
统一资源定位地址http://doi.acm.org/10.1145/1810891.1810910.Pierre-Luc培根、Jean Harb和Doina Precup。选项评论家架构。AAAI,第1726-1734页。AAAI出版社,2017年。统一资源定位地址https://aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14858.2018.统一资源定位地址https://github.com/google/dopamine.James柏格斯特拉、雷米·巴登、约舒亚·本吉奥和巴尔萨斯·凯格尔。超参数优化算法。在NIPS中,第2546–2554页,2011年。统一资源定位地址https://papers.nips.cc/paper/4443-algorithms-for-hyper-parameter-optimization.HansBühler、Lukas Gonon、Josef Teichman和Ben Wood。深度对冲,2018年。统一资源定位地址https://arxiv.org/abs/1802.03042.Deepmind.TRFL,2018年。统一资源定位地址https://github.com/deepmind/trfl.Prafulla达里瓦尔、克里斯托弗·黑塞、奥列格·克里莫夫、亚历克斯·尼科尔、马蒂亚斯·普拉佩特、亚历克·拉德福德、约翰·舒尔曼、西蒙西多尔、吴玉怀和彼得·卓霍夫。2017年OpenAI基线。统一资源定位地址https://github.com/opfenai/baselines.JonathanDoering、Michael Fairbank和Sheri Markose。卷积神经网络在高频市场微观结构预测中的应用。CEEC,第31-36页。IEEE,2017年。统一资源定位地址https://ieeexplore.ieee.org/document/8101595.Lasse埃斯佩霍尔特、休伯特·索耶、雷米·穆诺斯、凯伦·西蒙、沃洛蒂米尔·姆尼赫、汤姆·沃德、约塔姆·多伦、URLhttp://proceedings.mlr.press/v80/espeholt18a.html.https://publications.europa.eu/s/iPhY.https://arxiv.org/abs/1703.08294.JasonGauci、Edoardo Conti、Iitao Liang、Kittipat Virochsiri、Yuchen He、Zachary Kaden、Vivek Narayanan和Xiaohui Ye。地平线:Facebook的开源应用强化学习平台,2018年。统一资源定位地址https://arxiv.org/abs/1811.00260.TejasD.Kulkarni、Karthik Narasimhan、Ardavan Saeedi和Josh Tenenbaum。等级深加固ementhttp://arxiv.org/abs/1604.06057.Oliver米哈奇和拉尔夫·纽尼尔。风险敏感强化学习。机器学习,49(2-3):267–2902002。

19
何人来此 在职认证  发表于 2022-6-11 04:49:32
统一资源定位地址https://doi.org/10.1023/A:1017940631555.VolodymyrMnih、Koray Kavukcuoglu、David Silver、Alex Graves、Ioannis Antonoglou、Daan Wierstra、,andhttp://arxiv.org/abs/1312.5602.VolodymyrMnih、Adriáa Puigdomènech Badia、Mehdi Mirza、Alex Graves、Timothy P.Lillicrap、Tim Harley、David Silver和Koray Kavukcuoglu。深度强化学习的异步方法。ICML,第48卷,第1928-1937页,2016年。统一资源定位地址http://jmlr.org/proceedings/papers/v48/mniha16.html.PhilippMoritz、Robert Nishihara、Stephanie Wang、Alexey Tumanov、Richard Liaw、Eric Liang、William Paul、,http://arxiv.org/abs/1712.05889.Arun奈尔、Praveen Srinivasan、Sam Blackwell、Cagdas Alcicek、Rory Fearon、Alessandro De Maria、VedavyasPanneershelvam、Mustafa Suleyman、Charles Beattie、Stig Petersen、Shane Legg、Volodymyr Mnih、KorayKavukcuoglu和David Silver。深度强化学习的大规模并行方法。CoRR,2015年。统一资源定位地址http://arxiv.org/abs/1507.04296.ICML,第673–680页,2006年。统一资源定位地址https://doi.org/10.1145/1143844.1143929.Peter诺维格。关于乔姆斯基和统计学习的两种文化,2011年。统一资源定位地址http://norvig.com/chomsky.html.Michael奥斯本、罗曼·加内特和斯蒂芬·J·罗伯茨。全局优化的高斯过程。第三届学习和智能优化国际会议(LION3),第1-15页,2009年。Richard S Sutton、Doina Precup和Satinder Singh。在MDP和半MDP之间:强化学习中的临时抽象框架。《艺术情报》,112(1-2):181–2111999年。田元东、曲承功、尚温岭、吴玉新和C.LawrenceZitnick。ELF:一个广泛、轻量级、灵活的实时战略游戏研究平台。NIPS,第2656–26662017页。统一资源定位地址http://arxiv.org/abs/1707.01067.KorayKavukcuoglu。分层强化学习的封建网络。在ICML第70卷第3540–3549页。PMLR,2017年。

20
可人4 在职认证  发表于 2022-6-11 04:49:35
统一资源定位地址http://proceedings.mlr.press/v70/vezhnevets17a.html.ZihaoZhang、Stefan Zohren和Stephen Roberts。DeepLOB:limitorder图书的深度卷积神经网络,2018年。统一资源定位地址https://arxiv.org/abs/1808.03668.

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 06:07