然而,对于何时采取行动和决定什么,培训单一的政策仍然是不够的。一种可能的解决方案是将sMDP与分层RL(HRL)耦合。HRL是一种方法,其中决策模型由决策频率不同的策略层组成,从元策略到基本策略。我们对电子交易代理的制定在很大程度上源于Kulkarni对基于规则的深层HRL的解释【Kulkarni et al.,2016】,因为我们能够在有序(无规则)的层级RL中施加合理的规则,其中元策略的时间抽象属性是从原始策略的行为或目标聚类中产生的【Bacon et al.,2017】【Fox et al.,2017】【Vezhnevetset等人,2017年】。然而,人工智能代理使用时间抽象的能力方面的核心问题仍未解决:代理在总体目标背景下对子目标和内在回报的解释,时间抽象在融合时的崩溃,在探索密集环境中的样本效率,以及深层次的层次结构。4.3算法、监管和计算挑战电子交易代理在复杂、不断发展和快速变化的环境中运行。
我们希望他们能为具有挑战性的问题增添新的视角是否有一种严格的方法来解释多维奖励如何将持续时间不确定的过程的概念纳入MDP范式如何应对不确定的结果/回报如何为市场运营代理创造现实的培训环境?一种可能的解决方案是开发全面的艺术环境,现实地再现市场。模拟的多代理市场将具有实用价值和学术价值如何将冲突/互补的本地和全球奖励严格结合起来除了使用领域知识来分离不同时间尺度的过程,并使用分层培训,是否有一种严格的方法来设计在多个时间尺度上运行的代理可扩展性:在电子交易中,培训许多在类似但最终不同的环境中运行的代理似乎在计算上很有效,而不是培训一个代理来处理所有环境。针对不同环境培训的代理是否有办法从彼此的技能中获益?除了测试它们的功能外,还有什么方法可以判断两个受过训练的代理本质上是相似的吗仅适用于全局奖励是本地奖励的顺序聚合的流程。是否可以开发一种更通用的顺序决策方法,将上述特征结合起来是否有一种平衡和系统的方法,一方面可以让受过RL培训的代理了解其行为并解释其行为。参考面向对象编程研究方向,第49-74页。麻省理工学院,1987年。Nima Akbarzadeh、Cem Tekin和Mihaela van der Schaar。限额订单交易执行在线学习。IEEE Trans。信号处理,66(17):4626–46412018。乔·阿姆斯特朗。爱尔兰。公社。ACM,53(9):68–752010。