信号、影响和最优交易的市场自学习：无形 - 第4页 - 外文文献专区

31楼

发表于 2022-6-10 03:09:05

然后，问题是从这些数据中找到最佳执行策略。对于实践中可能遇到的这种数据驱动的DIPO学习，我们可能会区分两种可能的设置。首先，在强化学习的环境中，我们可以访问历史数据，包括股票市场价格、采取的行动（即投资组合交易）以及采取这些行动后获得的风险调整回报（详情见下文）。此外，数据包括所有可能预测奖励的预测因素（“α因素”）。目标是学习和改进数据中使用的政策，以便新的改进政策可以用于在未来产生更高的回报。另一种设置是反向强化学习（IRL），除了我们不再观察奖励外，一切都与上述相同。目标是学习导致观察到的行为的回报函数，以及学习策略。这就是本文的背景，我们使用IRL框架将市场中的所有交易者表示为一个市场明智的“专家交易者”，该交易者在数学上被建模为一个有界的rationalRL代理。该代理的奖励函数是从市场数据以及模型使用的任何信号中学习的。学习的参数包括市场隐含的风险规避λ、市场影响参数ui、预测因子zt的权重W和市场隐含的“理性指数”β。请注意，如果特定交易员或经纪人的专有交易数据可用，则可以应用相同的框架来学习该特定交易员的奖励函数。考虑到投资者自己往往不知道“真实”风险规避参数的值，这种设置可能很有趣，因为他们可能不会根据二次效用模型做出决策。

32楼

何人来此

发表于 2022-6-10 03:09:08

当应用于个人投资者时，此处开发的模型可能会提供特定投资者的概率模型，并根据该投资者的交易数据以及市场数据估计参数。关于策略优化问题，由于在IRL设置中没有观察到奖励，与RL设置相比，该问题通常更难解决，也不太好解决。特别是，与Q-learning等可以学习的RL-o-fff政策方法不同，IRL方法在给定足够数据的情况下，甚至可以从纯随机动作的数据中学习，IRL方法无法处理完全随机动作的数据。为了使IRL发挥作用，收集的数据应该符合一些好的政策，尽管不一定是最佳政策。概率IRL方法能够在演示数据并不总是对应于最佳操作时进行学习。虽然本文的主要关注点是IRL设置，但我们将从下面的RL方法开始讨论这个问题。4最优交易的强化学习在本节中，我们将讨论一种数据驱动的强化学习方法，用于等式（24）的多周期投资组合优化。我们首先介绍随机策略和带有随机策略的Bellman方程，然后考虑对应于等式（24）的MDP的熵正则化方法。4.1随机策略注意，多期投资组合优化问题（24）假设确定行动的最优策略是一种确定性策略，也可以描述为类delta概率分布π（at | yt）=δ（at- 一t（yt））（27）最优确定性动作a？t（yt）是通过最大化目标（24）来获得的。但是，由于模型错误、市场时机滞后、人为错误等原因，实际交易数据可能是次优的，有时甚至是嘈杂的。

33楼

nandehutu2022

发表于 2022-6-10 03:09:11

如果我们试图假设确定性政策（27）假设所选择的行动始终是最佳行动，那么数据中这种次优行动的潜在存在将带来严重的挑战。这是因为在这些模型假设下，此类事件的概率应为零，因此如果在数据中观察到，将产生消失路径概率。与假设确定性策略（27）不同，由平滑分布π（at | yt）描述的随机策略更适用于逆问题，例如逆投资组合优化问题。在这种方法中，我们将问题重新表述为概率分布π（at | yt）上的最大化：EqπhPT最大化-1t=tγt-t^Rt（yt，at）i（28），其中^R（yt，at）=ytryyyt+aTtRaaa+aTtRayyt+aTtRaw。r、 t.qπ（\'x，\'a | y）=π（a | y）QT-1t=1π（at | yt）P（yt+1 | yt，at）受试者toRdatπ（at | yt）=1其中，等式π[·]表示根据等式中第三行定义的路径概率的期望值。(28).注意，由于在风险调整收益率^R（xt，at）中包含二次风险惩罚，风险调整收益优化的原始问题在公式（28）中重新表述为在标准MDP设置中最大化预期累积回报，从而使该问题适用于MDP模型的标准风险中性方法。Gosavi【23】在非金融背景下提出了这种基于单步方差惩罚的简单风险调整，并在【26，27】中使用了基于强化学习的期权定价方法。另一个应该发表的评论是，从许多方面来看，portfoliotrading中的概率方法似乎比基于确定性策略的形式主义更自然。

34楼

mingdashike22

发表于 2022-6-10 03:09:14

事实上，即使在最简单的单周期设置中，由于投资组合权重的马科维茨最优解是估计的股票均值和协方差的函数，因此它们实际上是随机变量。然而，投资组合优化的概率性质在Markowitz类型的单周期或多周期优化设置（如（24））中没有得到认可。Marshinski等人在一个时期内提出了概率投资组合优化公式。4.2参考政策我们假设我们得到了一个概率参考（或先验）政策π（在| yt），应该在尝试投资组合优化之前决定（28）。这种策略可以基于参数模型、过去的历史数据等进行选择。我们将使用简单的高斯参考策略π（at | yt）=p（2π）N |∑p | exp-（位于-^a（yt））T∑-1p（at-^a（yt））（29）如果^a（yt）可以是被选择为状态向量yt的线性函数的确定性策略：^a（yt）=^a+^Ayt（30）（29）中的参数的简单选择可以是仅用两个标量^a来指定它们，则^aas如下所示：^a=^a | a |和^a=^a | a |×| a |其中| a |是向量的大小，1A和1A×Aare，分别是由1构成的向量和矩阵。然后，标量^a和^a将在我们的设置中用作超参数。类似地，先验策略的协方差矩阵∑pF可以被视为具有常数相关性ρ和常数方差σp的简单矩阵。如下所示，最优策略与先验策略（29）具有相同的高斯形式，具有更新的参数^a、^a和∑p。这些更新将从定义先验策略（29）的初始值开始迭代计算。迭代k处的更新将分别由上下标表示，例如^A（k），^A（k）。此外，结果表明，即使我们在前面的（29）中设置了^a=^a（0）=0，也会出现由^a（k）值驱动的对ytat迭代k的线性依赖。

35楼

可人4

发表于 2022-6-10 03:09:17

选择与状态无关的先验π（at | yt）=π（at），虽然不是很关键，但会将模型中的自由参数数量减少两个，并简化以下一些分析，因此将继续假设。它还使得没有必要在前面的（29）中指定\'ytin的值（等效地，我们可以将其初始化为零）。定义先验（29）的最终超参数集仅包括三个值：^a、ρa、∑p.4.3 Bellman最优方程LetV？t（yt）=最大π（·| y）E“t-1Xt=tγt-t^Rt（yt，at）yt#（31）最优状态值函数V？t（xt）满足Bellman最优方程（见例[49]）V？t（yt）=maxat^Rt（yt，at）+γEt，at五、t+1（yt+1）（32）最优策略π？可以从V获得？如下所示：π？t（at | yt）=arg maxat^Rt（yt，at）+γEt，at五、t+1（yt+1）（33）强化学习（RL）的目标是基于数据样本求解Bellman最优方程。假设通过RL找到一个最优值函数，求解最优策略π？采用等式（33）中的另一个优化问题。4.4熵正则化Bellman最优性方程【11】之后，我们首先使用Fenchel类型表示法重新表述Bellman最优性方程：V？t（yt）=最大π（·| y）∈PXat∈Atπ（At | yt）^Rt（yt，at）+γEt，at五、t+1（yt+1）（34）此处P=π : π ≥ 0，1Tπ=1表示所有有效分布的集合。公式（34）等价于原始Bellman最优方程（31），因为对于任何x∈ Rn，我们有maxi∈{1，…，n}xi=最大π≥0,||π||≤1πTx.注意，虽然我们使用离散符号来简化表示，但通过用积分替换和，下面的所有公式都可以用连续符号等效表示。

36楼

mingdashike22

发表于 2022-6-10 03:09:20

为简洁起见，我们将在[·]处将期望Eyt+1 | yt表示为Et，a[·]，如下所示。学习策略π（at | yt）相对于参考策略π（at | yt）的一步信息成本定义如下[18]：gπ（y，a）=logπ（at | yt）π（at | yt）（35）其对策略π的预期是π（·| yt）和π（·| yt）：Eπ[gπ（y，a）| yt]=KL[π| |π）（yt）≡Xatπ（at | yt）logπ（at | yt）π（at | yt）（36）轨迹的总贴现信息成本定义如下：Iπ（y）=TXt=tγt-tE[gπ（yt，at）| yt=y]（37）自由能函数Fπt（yt）定义为信息成本惩罚（37）增加的值函数（34）：Fπt（yt）=Vπt（yt）-βIπ（yt）=TXt=tγt-tE公司^Rt（yt，at）-βgπ（yt，at）（38）注意，式（38）中的β作为“反向温度”参数，控制奖励优化和接近参考政策之间的权衡，见下文。自由能fπt（yt）是熵正则化值函数，其中正则化的量可以进行调整，以更好地处理数据中的噪声。参考策略π为我们接下来描述的随机策略优化过程提供了“指导之手”。自由能函数Fπt（yt）的Bellman方程由（38）得到：Fπt（yt）=Ea | y^Rt（yt，at）-βgπ（yt，at）+γEt，aFπt+1（yt+1）（39）对于有限水平设置，等式（39）应补充终端条件fπT（yT）=^RT（yT，aT）在=-美国犹他州-1（40）（见等式（10））。公式（39）可被视为值函数Bellman最优方程的软概率松弛，KL信息成本惩罚（36）作为由逆温度β控制的正则化。

37楼

可人4

发表于 2022-6-10 03:09:24

除了这种正则化的值函数（自由能），我们接下来将引入熵正则化的Q函数。4.5 G函数：熵正则化Q函数类似于作用值函数，我们将状态作用自由能函数Gπ（x，a）定义为[18]Gπt（yt，at）=^Rt（yt，at）+γEFπt+1（yt+1）yt，at（41）=^Rt（yt，at）+γEt，a“TXt=t+1γt-t型-1.^Rt（yt，at）-βgπ（yt，at）#= Et，a“TXt=tγt-t型^Rt（yt，at）-βgπ（yt，at）#请注意，在物理学中，以及在自由能原理文献[19，39]中，自由能定义为与等式（38）相关的负号。这种差异纯粹是一个符号约定的问题，即Q的最大化。（38）可以重新表述为其负值的最小化。根据自由能函数的符号约定，我们遵循强化学习和信息论文献[40、52、42、30]。其中，在上一个等式中，我们使用了一个事实，即G函数中的第一个作用是固定的，因此当我们条件为at=a时，Gπ（yt，at）=0。如果我们现在将此表达式与等式（38）进行比较，我们得到了G函数与自由能Fπt（yt）之间的关系：Fπt（yt）=Xatπ（at | yt）Gπt（yt，at）-βlogπ（at | yt）π（at | yt）（42）该函数通过以下分布π（at | yt）最大化：π（at | yt）=Ztπ（at | yt）eβGπt（yt，at）（43）Zt=Xatπ（at | yt）eβGπt（yt，at）在最优解（43）计算的自由能（42）变为fπt（yt）=βlog Zt=βlogXatπ（at | yt）eβGπt（yt，at）（44），使用等式（44），最优行动策略（43）可写为：π（at | yt）=π（at | yt）eβ（Gπt（yt，at）-Fπt（yt））（45）式。（44），（45），以及此处为方便起见重复的等式（41）的第一种形式：Gπt（yt，at）=^Rt（yt，at）+γEt，aFπt+1（yt+1）yt，at（46）构成一个方程组，该方程组应通过t=t的反向递归自洽求解- 1.

38楼

mingdashike22

发表于 2022-6-10 03:09:27

，0，终端条件为sgπT（yT，aT）=^RT（yT，aT）（47）FπT（yT）=GπT（yT，aT）=^RT（yT，aT），方程的自洽格式。（44、45、46）[18]可用于观察到前方时的RL设置，以及未观察到前方时的IRL设置。在继续这些方法之前，我们想偏离等式（38）中熵正则化的另一种解释，这可能有助于澄清本文的方法。4.6熵正则化的对立解释公式（38）中熵正则化项的一种有用的替代解释可以建议将其表示为另一个函数的勒让德-芬切尔变换[41]：-βXatπ（at | yt）logπ（at | yt）π（at | yt）=minC（at，yt）Xat-π（at | yt）（1+C（at，yt））+π（at | yt）eβC（at，yt）（48）其中C（at，yt）是任意函数。

39楼

可人4

发表于 2022-6-10 03:09:29

公式（48）可以通过直接最小化右侧相对于C（at，yt）的值来验证。利用KL项的这种表示，自由能最大化问题（42）可以表述为最大最小问题F？t（yt）=maxπminCXatπ（at | yt）[Gπt（yt，at）- C（at，yt）- 1] +π（at | yt）eβC（at，yt）（49）从（49）isC获得的假想对手的最优成本？（at，yt）=βlogπ（at | yt）π（at | yt）（50）与[41]类似，可以检查这是否为代理与其敌对环境之间的想象博弈产生了差异解决方案，其中最优G函数和最优敌对成本（50）的总和是常数：G？t（yt，at）+C？（at，yt）=const，这意味着原始代理与其对手的博弈处于纳什均衡。因此，在随机环境中，由单个代理进行投资组合优化，该代理代表整个市场的有限理性成分，正如我们使用熵正则化自由能的方法所做的那样，这在数学上相当于研究我们的代理人与敌对对手的双方博弈中的纳什均衡，其指数预算由等式（49）中的最后一项决定。4.7 G-learning和F-learning在RL设置中，当观察到奖励时，系统方程。（44，45，46）可以简化为一元非线性方程。将增加的自由能（44）代入式（41），我们得到πt（y，a）=^R（yt，at）+Et，aγβlogXat+1π（at+1 | yt+1）eβGπt+1（yt+1，at+1）（51）该方程为作用值Q函数提供了Bellman最优方程的软松弛，等式（41）中定义的G函数为熵正则化Q函数【18】。式（51）中的“逆温度”参数β决定了熵调节的强度。特别是，如果我们取β→ ∞, 我们恢复了Q-函数的原始Bellman最优方程。

40楼

能者818

发表于 2022-6-10 03:09:33

由于（51）中的最后一项近似于最大（·）函数，当β较大但有限时，等式（51）在文献中称为软Q学习。对于有限值β<∞, 在具有观察到的奖励的强化学习设置中，等式（51）可用于指定G-Learning【18】：一种将Q-Learning推广到需要基于熵的正则化的噪声环境中的差异策略时间差（TD）算法。参考文献[18]中的G-learning算法是在状态和动作空间都是有限的列表环境中指定的。在我们的例子中，我们处理高维的状态和动作空间，此外，我们不观察奖励，所以我们处于一个反向强化学习的环境中。另一种可能的方法是完全绕过G函数（即熵调节Q函数），并继续使用自由能F函数的Bellman最优方程（38）。在这种情况下，我们有一对Fπt（yt）和π（at | yt）的方程：Fπt（yt）=Ea | x^R（yt，at）-βgπ（yt，at）+γEt，aFπt+1（yt+1）π（at | yt）=Ztπ（at | yt）e^R（yt，at）+γEt，a[Fπt+1（yt+1）]（52）这里，第一个方程是F函数的Bellman方程（39），第二个方程是通过将等式（46）替换为等式（43）得到的。还请注意，归一化康斯坦丁公式（52）通常不同于公式（43）中的归一化常数。等式（52）表明，一步奖励^R（yt，at）本身不会形成一步行动概率π（at | yt）的替代规范。相反，求和R（yt，at）+γEt，aFπt+1（yt+1）是必需的[42]。然而，在一种特殊情况下，当动力学是线性的，而奖励^R（yt，at）是二次的，则术语Et，aFπt+1（yt+1）与时间t奖励^R（yt，at）具有相同的参数形式，因此添加该项相当于一步奖励函数参数的“重整化”（见下文）。

[量化金融] 信号、影响和最优交易的市场自学习：无形 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群