连续时间均值-方差投资组合选择：一种强化 - 第3页 - 外文文献专区

21楼

发表于 2022-6-14 13:58:54

该成本是两个最优值函数之间的差异，根据最优探索策略的熵值调整额外的贡献。将定理2设为e，我们得到如下结果。定理4假设定理2的陈述（a）（或等价地，（b））成立。然后，MV问题的勘探成本为isCu*,π*（0，x；w）=λT，x∈ R、 w∈ R、（31）证明。设{π*t、 t型∈ [0，T]}是由反馈控制π生成的开环控制*在语句（a）中给出，关于初始状态xat t=0，即π*t（u）=Nu-ρσ（X*t型- w），λ2σeρ（T-t）其中{X*t、 t型∈ [0，T]}是探索性MV问题的相应最优财富过程，从状态xat T=0开始，当π*已应用。然后，我们很容易推断出Zrπ*t（u）lnπ*t（u）du=-自然对数πeλσeρ（T-t）.现在，所需结果紧跟在（a）中V（·）和（b）中Vcl（·）的表达式之后。勘探成本仅取决于两个“特定代理人”参数，即勘探权重λ>0和投资期限T>0。请注意，后者也是勘探层位。我们的结果是直观的，即勘探成本随着勘探权重和勘探层位的增加而增加。实际上，对于λ和T这两个属性，相关性都是线性的。值得注意的是，成本与拉格朗日乘数无关。这表明，当代理更具攻击性（或风险寻求）时，勘探成本不会增加——由预期目标z或等效的拉格朗日乘数W反映。4 RL算法设计在前两部分奠定了理论基础之后，我们现在设计了一个RL算法来学习熵正则化MVP问题的解，并输出可实施的投资组合分配策略，而不需要假设任何关于底层参数的知识。

22楼

mingdashike22

发表于 2022-6-14 13:58:57

为此，我们将首先建立所谓的政策改进定理以及相应的收敛结果。同时，我们将提供一种基于随机逼近的自校正方案来学习真正的拉格朗日乘子w。我们的RL算法绕过了估计任何模型参数的阶段，包括平均返回向量和方差方差矩阵。它还避免了在高维中反转可能产生非稳健投资组合策略的典型病态方差方差矩阵。在本文中，我们没有依赖于离散时间MDP（用于大多数RL问题）的典型框架并相应地将时间和空间离散化，而是设计了一种算法来直接学习连续时间探索MV问题（11）的解。具体而言，我们采用Doya（2000）提出的方法，以避免状态动力学或HJB方程的离散化。正如Doya（2000）所指出的，通常很难找到合适的粒度来离散化状态、动作和时间，而单纯的离散化可能会导致性能不佳。OnIn Wang等人（2019年）在有限的h orizon LQ案例中，得出了类似的结果，表明勘探成本与勘探权重成正比，与贴现因子成反比。显然，时间范围的长度T的作用类似于贴现因子的倒数。另一方面，尽管已经建立了理论收敛结果，但由于维数灾难，基于网格的HJB方程离散化方法在实际中很难扩展到高维状态空间（见Munos和Bourgine（1998）；Mu编号（2000））。

23楼

kedemingshi

发表于 2022-6-14 13:59:00

然而，我们的算法（将在第4.2小节中描述）利用了一个可改进的策略改进定理和相当简单但有效的函数近似来直接学习值函数和最优高斯策略。此外，由于值函数和投资组合策略的显式表示，它在高维状态空间（即，在大量风险集的情况下）中是计算上可行和可实现的，因此没有维数限制。请注意，我们的算法没有使用（深层）神经网络，这些神经网络在（高维）连续RL问题的文献中得到了广泛应用（例如，Lillicrap et al.（2016），Mnih et al.（2015）），但除了其低解释性外，还以不稳定的性能、采样效率以及广泛的超参数调整（Mnih et al.（2015））著称。4.1政策改进理论大多数RL算法由两个迭代过程组成：政策评估和政策改进（Sutton和Barto（2018））。前者为当前策略提供了一个估计值函数，后者则更新右方向的当前策略以改进值函数。因此，Apolicy改进定理（PIT）是可解释RL算法的重要前提，该算法确保迭代值函数不增加（在最小化问题的情况下），并最终收敛到最优值函数；例如，参见《纽顿和巴托》（2018）第4.2节。P已经证明了有限时间内离散时间熵调节RL问题（Haarnoja et al。

24楼

能者818

发表于 2022-6-14 13:59:04

（2017）），以及连续时间经典随机控制问题（Jacka和Mijatovi\'c（2017））。下面的结果为探索性的MVportfolio选择问题提供了一个陷阱。定理5（政策改进定理）让w∈ R是固定的，π=π（·；·，·，w）是任意给定的容许反馈控制策略。由于监管要求等原因，可解释性是金融业一般人工智能应用中最重要和紧迫的问题之一。Jacka和Mijatovi\'c（2017）研究了没有分布控制和熵正则化的经典随机控制问题。他们没有考虑RL和相关问题，包括勘探。假设对应的值函数Vπ（·，·；w）∈ C1,2（[0，T）×R）∩C（[0，T]×R）和满足度Vπxx（T，x；w）>0，对于任何（T，x）∈ [0，T）×R.进一步假设反馈策略由π（u；T，x，w）=N定义u-ρσVπx（t，x；w）Vπxx（t，x；w），λσVπxx（t，x；w）（32）可予接纳。那么，V異π（t，x；w）≤ Vπ（t，x；w），（t，x）∈ [0，T]×R.（33）证明。固定（t，x）∈ [0，T]×R.由于根据假设，反馈策略|π是可接受的，因此开环控制策略|π={|πv，v∈ [t，t]}，根据初始条件X▄πt=X从▄π生成的是可容许的。设{X▄πs，s∈ [t，t]}是∧π下相应的财富过程。应用It^o公式，我们得到了Vπ（s，～Xs）=Vπ（t，x）+ZstVπt（V，x～πV）dv+ZstZRσuVπxx（v，Xπv）+ρσuVπX（v，Xπv）~πv（u）dudv+ZstσZRu∏v（u）duVπ（V，XπV）dWv，s∈ [t，t]。（34）确定停止时间τn：=inf{s≥ t:RstσRRu∏v（u）duVπ（V，X∧πV）dv≥n} ，对于n≥ 1.

25楼

可人4

发表于 2022-6-14 13:59:06

然后，从（34）中，我们得到Vπ（t，x）=EhVπ（s∧ τn，X￠πs∧τn）-Zs公司∧τntVπt（v，X∧πv）dv-Zs公司∧τntZRσuVπxx（v，Xπv）+ρσuVπX（v，Xπv）~πv（u）dudvX∏t=xi。（35）另一方面，根据标准参数和假设Vπ是光滑的，我们有Vπt（t，x）+ZRσuVπxx（t，x）+ρσuVπx（t，x）+λlnπ（u；t，x）π（u；t，x）du=0，对于任何（t，x）∈ [0，T）×R。它的结果是vπT（T，x）+minπ′∈P（R）ZRσuVπxx（t，x）+ρσuVπx（t，x）+λlnπ′（u）π′（u）du≤ 注意，（36）中的哈密顿量的极小值由（32）中的反馈策略|π给出。然后，方程式（35）表示vπ（t，x）≥ 超高压π（s∧ τn，X￠πs∧τn）+λZs∧τntZR▄πv（u）ln▄πv（u）dudvX∏t=xi，对于（t，X）∈ [0，T]×R和s∈ [t，t]。现在取s=T，并使用Vπ（T，x）=V|π（T，x）=（x-w）-（w）-z）通过发送n，结合∧π可容许的假设，我们得到→ ∞ 应用支配收敛定理，即vπ（t，x）≥ 超高压▄π（T，X▄πT）+λZTtZR▄πv（u）ln▄πv（u）dudvX▄πt=xi=V▄π（t，X），对于任何（t，X）∈ [0，T]×R。上述定理表明，高斯族中总是存在改进任何给定（不一定是高斯）策略的值函数的策略。因此，在不损失一般性的情况下，我们可以在选择初始解时简单地关注高斯策略。此外，定理1s中的最优高斯策略（24）表明候选初始反馈策略可以采用π（u；t，x，w）=N（u | a（x）的形式-w），cec（T-t））。事实证明，从理论上讲，这种选择会导致价值函数和政策在有限的迭代次数内收敛。定理6设π（u；t，x，w）=N（u | a（x- w），cec（T-t）），带a、c∈ Rand c>0。用{πn（u；t，x，w），（t，x）表示∈ [0，T]×R，n≥ 1} 由策略改进方案（32）和{Vπn（t，x；w），（t，x）更新的反馈策略序列∈ [0，T]×R，n≥ 1} 对应值函数的序列。

26楼

何人来此

发表于 2022-6-14 13:59:09

那么，limn→∞πn（·；t，x，w）=π*（·；t，x，w）弱，（37）和limn→∞Vπn（t，x；w）=V（t，x；w），（38）表示任何（t，x，w）∈ [0，T]×R×R，其中π*和V分别是最优高斯策略（24）和最优值函数（23）。证据可以很容易地验证反馈策略π，其中π（u；t，x，w）=N（u | a（x-w），cec（T-t））生成一个关于初始值（t，x）可容许的开环策略π。此外，根据费曼-卡夫公式，相应的值函数Vπ满足PDEVπt（t，x；w）+ZRσuVπxx（t，x；w）+ρσuVπx（t，x；w）+λlnπ（u；t，x，w）π（u；t，x，w）du=0，（39），终端条件Vπ（t，x；w）=（x- w）- （w）- z）。求解这个方程，我们得到vπ（t，x；w）=（x- w） e（2ρσa+σa）（T-t） +ZTtcσe（2ρσa+σa+c）（t-s） ds+λc（T- t） +λln（2πec）（t- t）- （w）- z）。（40）很容易检查Vπ是否满足定理5中的条件，因此，该定理适用。改进的策略由（32）给出，在当前情况下，它变为π（u；t，x，w）=Nu-ρσ（x- w），λ2σe（2ρσa+σa）（T-t）.同样，我们可以计算相应的值函数为Vπ（t，x；w）=（x- w） e类-ρ（T-t） +F（t），其中F仅为t的函数。定理5再次适用，它产生的改进策略π与最优高斯策略π完全相同*在（24）中给出，以及在（23）中给出的最佳值f function v。因此，对于n，期望的收敛遵循s≥ 2、在政策改进方案下，政策和价值函数将不再严格改进（32）。上述收敛结果表明，如果我们明智地选择初始策略，理论上，学习方案将在有限次（实际上是两次）迭代后收敛。

27楼

何人来此

发表于 2022-6-14 13:59:12

当然，当在实践中实施该方案时，每个策略的值函数可以近似，因此，学习过程通常需要更多的迭代才能收敛。然而，定理5为更新当前政策提供了理论基础，而定理6则为政策空间提供了一个良好的起点。在下一小节中，我们将利用这两个结果为探索性MV问题设计一个可实现的RL算法。4.2 EMV算法在本节中，我们提出了一种RL算法，即EMV（探索性均值-方差）算法，用于求解（11）。它包括三个同时进行的过程：政策评估、政策改进和基于随机逼近的拉格朗日乘数w学习自校正方案。对于政策评估，我们遵循Doya（2000）所采用的方法，在任意给定的可容许反馈政策π下学习值函数Vπ。根据Bellman的一致性，我们得到vπ（t，x）=EVπ（s，Xs）+λZstZRπV（u）lnπV（u）dudvXt=x, s∈ [t，t]，（41）表示（t，x）∈ [0，T]×R.重新排列该方程，并将两侧除以- t、我们获得Vπ（s，Xs）- Vπ（t，Xt）s- t+λs- tZstZRπv（u）lnπv（u）dudvXt=x= 0、取s→ t导致连续时间行李员误差（或温差（TD）误差；参见Doya（2000））δt：=˙Vπt+λZRπt（u）lnπt（u）du，（42），其中˙Vπt=Vπ（t+t、 Xt公司+t）-Vπ（t，Xt）总导数和t是学习算法的分解步骤。政策评估程序的目标是将行李员的错误或δt降到最低。一般来说，这可以按以下方式执行。

28楼

mingdashike22

发表于 2022-6-14 13:59:15

分别用Vθ和πφ表示参数化值函数和策略（使用回归或神经网络，或利用问题的某些结构；见下文），θ、φ是要学习的权重向量。然后我们最小化c（θ，φ）=EZT |δt | dt=EZT公司˙Vθt+λZRπφt（u）lnπφt（u）dudt公司,其中πφ={πφt，t∈ [0，T]}是由πφ关于给定初始状态X=xat时间0生成的。为了在一个可实现的算法中近似C（θ，φ），我们首先将[0，T]离散为s个小等长区间[ti，ti+1]，i=0，1，···，l，其中T=0，tl+1=T。然后我们收集一组样本D={（ti，xi），i=0，1，·····，l+1}，方法如下。对于i=0，初始样本为（0，x）。现在，在每个ti，i=0，1，····，l，我们对πφtit进行采样，以获得分析ui∈ 风险资产中的R，然后观察下一时刻ti+1的财富xi+1。现在我们可以用C（θ，φ）=X（ti，xi）近似C（θ，φ）∈D˙Vθ（ti，xi）+λZRπφti（u）lnπφti（u）dut、（43）在本文中，我们将利用定理1和定理6中得到的更显式的参数表达式，而不是遵循通常的做法，使用（深度）神经网络来表示连续RL问题的Vθ、πφ。这将导致更快的学习和收敛，这将在下面的所有数值实验中得到证明。更准确地说，根据定理6，我们将关注方差为f形式cec（T）的高斯策略-t），这反过来导致熵参数化为H（πφt）=φ+φ（t- t），式中φ=（φ，φ）′，带φ∈ Randφ>0是要学习的参数向量。另一方面，正如定理1中的理论最优值函数（23）所建议的那样，我们考虑p参数化的Vθ，其中θ=（θ，θ，θ，θ）′，byVθ（t，x）=（x- w） e类-θ（T-t） +θt+θt+θ，（t，x）∈ [0，T]×R。

29楼

能者818

发表于 2022-6-14 13:59:18

（44）根据策略改进更新方案（32），可以得出策略的方差πφtisλ2σeθ（T-t），导致熵nπeλσ+θ（t- t）。将其与先前导出的形式H（πφt）=φ+φ（t）相等- t），我们推导出σ=λπe1-2φ和θ=2φ=ρ。（45）根据（32），改进的策略依次变为π（u；t，x，w）=Nu-ρσ（x- w），λ2σeθ（T-t）= 如新大学-r2φλπe2φ-1（x- w），2πe2φ（T-t） +2φ-1.（46）其中，我们假设真实（未知）夏普比ρ>0。用H（πφt）=φ+φ（t）重写目标（43）- t），我们得到c（θ，φ）=X（ti，xi）∈D˙Vθ（ti，xi）- λ（φ+φ（T- t）（）t、注意˙Vθ（ti，xi）=Vθ（ti+1，xi+1）-Vθ（ti，xi）t、在Vθ（ti，xi）的参数化中θ=2φ。现在可以直接使用随机梯度下降算法设计（θ，θ）′和（φ，φ）′的更新规则（例如，参见Go Odfelle et al.（2016）第8章）。准确地说，我们计算Cθ=X（ti，xi）∈D˙Vθ（ti，xi）- λ（φ+φ（T- ti））t；(47)Cθ=X（ti，xi）∈D˙Vθ（ti，xi）- λ（φ+φ（T- ti））（ti+1- ti）；(48)Cφ= -λX（ti，xi）∈D˙Vθ（ti，xi）- λ（φ+φ（T- ti））t；(49)Cφ=X（ti，xi）∈D˙Vθ（ti，xi）- λ（φ+φ（T- ti））t×-2（xi+1- w） e类-2φ（T-ti+1）（T- ti+1）- 2（xi）- w） e类-2φ（T-ti）（T- ti）t型-λ（T- ti）！。（50）此外，参数θ更新为θ=2φ，θ更新基于最终条件Vθ（T，x；w）=（x- w）- （w）- z），whichyieldsθ=-θT- θT- （w）- z）。（51）最后，我们提供了一个学习潜在拉格朗日乘数w的方案。实际上，约束e[XT]=z本身表明标准随机近似updatewn+1=wn- αn（XT- z），（52）αn>0，n≥ 1、学习率。

30楼

可人4

发表于 2022-6-14 13:59:23

在实现中，我们可以用一个示例Averagenpjxjt代替XTin（52），以获得更稳定的学习过程（例如，参见Kushner和Yin（2003）的第1.1节），其中N≥ 1是样本量，xjT是在更新w时获得的最新N terminalwealth值。有趣的是，w（52）的学习方案在统计上是自校正的。例如，如果（样本平均数）终端财富高于目标z，则更新规则（52）将减少w，这反过来会减少探索性高斯策略的平均值π（46）。这意味着，在下一步的学习和优化行动中，风险会更低，平均而言，最终财富会减少。我们现在对EMV算法的伪码进行求和。算法1 EM V：探索性均值-方差投资组合选择投入：市场模拟市场、学习率α、ηθ、ηφ、初始财富x、目标收益z、投资期限T、离散化t，explorationrateλ，迭代次数M，s充分平均大小N。初始化θ、φ和wf，对于k=1到M，对于i=1到Tt型在πφ下从市场获得的doSample（tki，xki）获得收集的样品D={（tki，xki），1≤ 我≤ Tt型}更新θ← θ - ηθθC（θ，φ）使用（47）和（48）更新θ使用（51）和θ← 2φ更新φ← φ - ηφφC（θ，φ），使用（49）和（50）end更新πφ← Nu-q2φλπe2φ-1（x- w），2πe2φ（T-t） +2φ-1.如果k mod N==0更新w← w- αNPkj=k-N+1xjTt型- z在本节中，我们将OUR RL算法EMV的性能与可用于解决经典MV问题的其他两种方法进行了比较（3）。第一种是传统的最大似然估计（MLE），它依赖于几何布朗运动价格模型（1）中漂移u和波动率σ的实时估计。

[量化金融] 连续时间均值-方差投资组合选择：一种强化 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群