基于机器学习算法的风险管理 - 第2页 - 外文文献专区

11楼

nandehutu2022

发表于 2022-6-14 04:10:51

在LSTM单元中，称为门的结构通过向状态添加或删除信息来调节内存状态中包含的信息流。门由asigmoid神经网络层和逐点乘法运算组成。数学上，第t个单元格内的规则如下：Γft=σ（AfSt+UfCt-1+bf）Γit=σ（AiSt+UiCt-1+bi）Γot=σ（AoSt+UoCt-1+bo）Mt=Γft Mt公司-1+Γit tanh（AMSt+UMCt-1+bM），M=0Ct=Γot tanh（Mt），C=0（8），其中是Hadamard积，σ是sigmoid激活函数σ（x）=1+e-x个, Ao∈ Rh×d，Uh×ho，bo∈ Rh，h为细胞状态大小。Γfts表示忘记门。它决定需要从内存状态中删除哪些信息。这个决定是由一个称为“忘记门层”的sigmoid层做出的。它输出一个介于0和1之间的数字，并将其乘以内存状态MtLS1中的每个数字。Γ它是一个输入门，用于评估需要在内存状态中存储哪些新信息。输出网关层决定需要输出的内存状态的哪些部分。它基于内存状态的过滤版本。权重矩阵和偏差向量（Ao、Uo、bo）通过所有时间步骤共享，并在培训过程中学习。输出CTI用作未知函数的近似值。我们仍然注意到用于LSTM表示的参数集θ（8）。3.3一般优化算法由于使用神经网络导致高度非凸和非线性优化问题，我们使用小批量随机梯度下降法计算θ参数。

12楼

nandehutu2022

发表于 2022-6-14 04:10:54

自适应矩估计（Adam）Kingma和Ba（2014）是一种计算每个参数的自适应学习率的方法。除了存储过去平方梯度的指数衰减平均值外，像AdaDelta Zeiler（2012）和RMSprop（Tieleman和Hinton（2012））一样，Adam还保持了与动量类似的过去梯度的指数衰减平均值。算法1全局算法的正向分辨率1：α：步长2：β，β∈ [0，1]，矩估计的指数衰减率，3：迭代次数n，4：批次，每次梯度下降迭代的模拟次数（批次大小）。5： θ随机选择6:m← 07:v← 08:t← 09：对于t=0。NIterdo10：Su← Nbatchsamples模拟Su，u=t。。。，田纳西州-1，T11:t← t+112：gt=θL（NNθt-1（Su）- g（ST））（获取梯度w.r.t目标函数）13:mt← mt公司-1+ (1 - β).gt（更新偏差一阶矩估计）14:vt← βvt-1+ (1 - β） gt（更新偏差二次原始矩估计）15：^mt←mt1-βt（计算偏差修正后的一阶矩估计值（βt代表β与t的幂之比））16：^vt←vt1-βt（计算偏差校正的第二原始矩估计值（βt代表β的t次方））17：θt← θt-1.- α^mt/(√^vt+) （更新参数）4全局套期保值问题的最优网络在本节中，我们将两个前馈网络的使用与我们提出的LSTM网络和LSTM网络的扩展进行比较。我们首先解释如何在Black-Scholes模型中对冲看涨期权的背景下使用之前提出的前馈网络。然后，我们详细说明了我们的LSTMextension，并比较了在没有任何对冲约束的情况下，在对冲问题上获得的结果。我们表明，修改后的LSTM网络可以提供最佳结果。最后，我们解释了如何调整我们的修改后的LSTM网络以应对流动性约束。

13楼

能者818

发表于 2022-6-14 04:10:57

在以下情况下，~St=St-E【St】√E[（St-E（St））]表示St.4.1前馈神经网络体系结构在全球HedgingProblem上的规范化版本。解决第2.2节所述套期保值问题的可能方法包括训练N个不同的前馈神经网络（每个时间步一个），如Han et al.（2018）针对PDE案例所做的，如图1所示和第4.1.1节所述。这种架构（以下称为前馈控制）可能会产生大量待估计的权重和偏差（N* 深度* 宽度）。另一种可能性是按照Chan Wai Nam et al.（2019）的建议，如图2所示和第4.1.2节所述，训练一个由价格和成熟时间组成的前馈神经网络。该体系结构在下文中称为前馈合并控制。4.1.1前馈控制网络中的前馈控制结构，N-1网络依次馈送（▄Sti）i=1。。。N-1、前馈网络由θ（待估计的偏差和权重）参数化。第i个前馈神经网络图1：前馈基本结构：N- N的1个前馈网络- 1时间步图2：前馈合并架构：将时间维度添加到输入特征中，但在所有时间步内共享前馈偏差和权重网络提供了d维度控制ti（▄Sti，θ）。第一个控件t（~St，θ）和保费p（θ）是可训练变量。最终支付公式为：XT（θ）=p（θ）+dXi=1N-1Xj=0itj（~Stj，θ）（Fitj+1- Fitj）。问题（3）导致以下优化问题：θ*= ArgminθL（XT（θ）- g（ST））。

14楼

mingdashike22

发表于 2022-6-14 04:11:00

（9） 4.1.2前馈合并控制结构在前馈合并控制结构中，一个神经网络连续地以（￠Sti）i=1。。。N-1、对于每一对（ti，~Sti），网络提供一个控制（ti，Sti，θ），其中θ表示待估计的偏差和权重。同样，第一个控件（t，~St，θ）和保费p（θ）是可训练变量。最终结果如下：XT（θ）=p（θ）+dXi=1N-1Xj=0i（tj，~Stj，θ）（Fitj+1- Fitj）。问题（3）导致以下优化问题：θ*= ArgminθL（XT（θ）- g（ST））。（10） 4.2递归网络套期保值问题的连续性使得递归神经网络（RNN）的使用具有相关性。例如，Chan Wai Nam et al.（2019）将这种网络用于PDE数值解析图3：递归架构。例如，该单元可以是LSTM单元。图4:LSTM单元可能与前馈网络结合（图受Olah（2015）启发）问题。正如Chung等人（2014）所述，在所有RNN架构中，LSTM神经网络（Seehchreiter和Schmidhuber（1997））具有若干优势，其中包括收敛速度和内存管理。例如，它将允许管理非马尔可夫基础模型。该体系结构在下文中称为经典LSTM。由于更多的层可能代表更复杂的输入函数，我们建议测试在STM单元输出中添加前馈网络是否有助于算法收敛，如图4所示。LSTM小区和前馈网络的这种组合在下文中称为增强LSTM小区。递归单元格被▄St馈送。它对一系列输入的递归调用提供了一系列底层位置变化（见图3）。

15楼

何人来此

发表于 2022-6-14 04:11:03

在每个日期tj，周期性单元格根据历史事件和控制^Cj（θ，（￠Sts）s产生d维输出≤j、(ts）s≤j））（在图4中简单地表示为CJ）没有边界。战略’计算j=0，N- 1.i=1，di（tj，（Sti）i≤j、 θ）=jXk=0^Cik（℃Sts）s≤j（ts，（~Sts）s≤j、 θ））。（11）最后的支付公式为：XT（θ）=p（θ）+dXi=1N-1Xj=0i（tj，（~Stk）k≤j、 θ）（Fitj+1- Fitj）。问题（3）导致以下优化问题：θ*= ArgminθL（XT（θ）- g（ST））。（12） 4.3神经网络额外参数神经网络结果取决于以下列出的一些额外参数。除非另有规定，所有测试用例都共享这些参数批量大小，我们在Adam优化器的每次迭代中给出的模拟数量等于50Adam初始学习率等于0.001（默认参数）。oLSTM单元中的LSTM单元数（Mt尺寸）等于50。o我们使用3个ReLU层和10的前馈部分的密度来增强LSTM单元在将数据交给神经网络之前，我们使用数据的批量归一化。用于归一化的平均值和方差在100 000个模拟的子集上计算一次除非另有规定，梯度下降算法中的迭代次数等于20000次。每1000次迭代，如果神经网络在测试集上的损失比以前更好，我们将保持神经网络状态。在下文中，使用TensorFlow进行测试（Abadi et al.（2015））。4.3.1全局神经网络体系结构的数值比较稳定1比较了方程（4）的均方套期保值误差，这两种体系结构以及Black-Scholes看涨期权（具有趋势u和波动率σ）的增广LSTM体系结构，具有无流动性约束。

16楼

nandehutu2022

发表于 2022-6-14 04:11:06

使用Black-Scholes获得的结果也显示了。经过20000次迭代后，使用增广LSTM体系结构得到的结果优于使用两个前馈网络得到的结果。当然，布莱克·斯科尔斯在这种情况下，几乎完全的市场环境是无敌的，并且布莱克斯科尔斯误差将在连续时间内为0。然而，我们可以看到，与Black-Scholes相比，增广LSTM给出的复制误差相对较低。均方误差Black-Scholes（N（d））1.61e-05前馈增量【10，10，10】1.32e-04前馈增量【10，15，30】1.31e-04前馈合并【10，10，10】1.37e-04前馈合并【10，15，30】1.30e-04增强LSTM 50单位【10，10，10】1.73e-05表1：具有不同神经网络结构的Black-Scholes看涨期权的均方误差。Layersizes用列表表示（例如，[10、15、20]表示三个隐藏层，分别为10、15和20）。参数：S=K=1，t=1/365，t=1/12年，u=0，σ=0.2）。迭代次数设置为20000。前馈网络的激活函数是ReLu函数。在表2中，我们显示了方程（4）损失的均方误差，该损失源自经典的LSTM-cellon a无流动性约束普通看涨期权和2个市场利差看涨期权（具有Payoff（ST- 装货单- K） +）。我们将此损失与扩展LSTM单元的损失进行比较。我们可以看到，对于这里由2个市场价差表示的更复杂的支付，增加的LSTM单元给出的结果稍好一些。Black-Scholes看涨期权2市场扩展经典LSTM单元5.73e-05 3.64e-04增强LSTM单元3.97-05 1.11E-04表2：不同经典和增强LSTM架构之间的均方比较。

17楼

可人4

发表于 2022-6-14 04:11:09

参数：看涨期权：T=3/12，t=1/360，S，u=0.02，σ=0.3-2个市场价差期权（S=1，S=0.5，K=0.5，σ=σ=0.3，u=u=2%，corr（W，W）=0.2）。4.4适应经常性架构以处理流动性约束由于流动性约束情况下的控制是有界的，必须转换网络的输出，我们建议使用tanh激活函数，如下所示：i（tj，（Sti）i≤j、 θ）=lijXk=0tanh（^Cik（℃Sts）s≤j（ts，（~Sts）s≤j、 θ）））。（13）顺便说一下，两个时间步之间的控制差异属于[-李，李]。5带约束套期保值问题的局部算法用于解决带约束套期保值问题的其他两种算法是基于Warin（2019）提出的动态规划原则的局部算法。要最小化的目标函数由方程（3）、（4）给出，因此对应于全局方差套期保值问题。在最初的文章中，作者使用一些网格来离散资产水平，并使用一些回归来计算条件期望。如前所述，这两种算法仅适用于优化方差问题。可以注意到，提出的两种局部机器学习算法可能与Huréet al.（2018）最近的一些工作有关；Bachouch等人（2018年）和Huré等人（2019年）。我们引入▄的空间在RdWi中（yen) ={（V，) ∈ R×Rd，Fti采用|k-~k|≤ lk，对于k=1，d} ，Θi（) ={(i、，N-1），其中j≥ 我，jare RDVALUEDTFTJ改编自|ki公司-~k|≤ lk|千焦+1- 千焦|≤ lkfor一级≤ j<N- 1，k=1。

18楼

何人来此

发表于 2022-6-14 04:11:12

，d}^Wi（~) ={（V，) 其中V为R值，Fti适应， ∈ Θi（Θ)}.如Warin（2019）中3.1号提案所示，问题（3）、（4）可以写成（p，^) = arg最小值∈R∈Θ（0）NXi=2E“Vi-dXk=1ki公司-1（Fkti- Fkti公司-1) - 不及物动词-1!#+E“V-dXk=1k（Fkt- Fkt）- p！#，（14）其中，粘度：VN=g（ST），Vi=E“g（ST）-dXk=1N-1Xj=i千焦（Fktj+1- Fktj）| Fti#，i=1，N- 1，（15）5.1第一个局部算法方程（14）给出了一个动态规划算法：在日期ti处引入当前状态sti的最优残差R，并在投资组合中投资我-1资产：R（ti、Sti、，我-1） =最小值（V，)∈^Wi(我-1） E“g（ST）-dXk=1N-1Xj=i千焦（Fktj+1- Fktj）- 五、|Fti#，（16）然后方程（14）给出Sr（ti，Si，我-1） =最小值（V，)∈Wi公司(我-1） E“V-dXk=1ki（Fkti+1- Fkti）- 五、+ R（ti+1，Sti+1，i） | Fti#（17）式中，V是公式（16）中argmin的第一个分量，计算R（ti+1，Sti+1，i）。在价格为鞅的特殊情况下，（17）中的（~V，V）独立于对冲策略，由（E[g（ST）| Fti+1]，E[g（ST）| Fti]）给出。ThenR（t，St，0）=最小值∈Θ（0）E“N-1Xi=0（E[g（ST）| Fti+1]-dXk=1ki（Fkti+1- Fkti）- E【g（ST）| Fti】#通过求解经典的局部最小方差问题，只剩下套期保值策略进行计算，使得每个时间步最小∈RdE“V-dXk=1k（Fkti+1- Fkti）- 五、|Fti#。

19楼

何人来此

发表于 2022-6-14 04:11:15

（18）然后，我们的目标是使用神经网络计算Vifunctions（因此仅计算条件期望）和最优控制iboth作为Sti在每个日期的函数，通过向后递归在每个时间步最小化（18）。与V不同，由于流动性限制和j∈ [jj] 其中最小约束jand最大约束jare in Rd.规范对冲产品头寸，我们引入^j=ψj(j） :=j-jj-jsuch that^j∈ [0, 1].在每个时间步，使用前馈神经网络将投资组合值和归一化命令参数化，作为归一化不确定性和位置的函数：^Vj（θj；^Stj，^j），^C（θj；^Stj，^j）第一个算法2采用向后递归（18）进行求解。然后，在每个时间步，通过使用机器学习方法实现方程（19）的求解，其中每个函数依赖于一些规范化变量，以简化方法的收敛性。方程（19）的分辨率通过使用经典随机梯度下降实现。备注5.1我们为^Vjand^创建了一个单一网络jletting^Vjdepend on^tj-1前一日的套期保值头寸。在这个鞅的情况下，可以创建两个网络，第二个网络仅用于表示V作为^S的函数。备注5.2套期保值头寸中的头寸x（在[0，1]d中归一化）在算法中统一采样。^stjar根据自己的经验法则进行抽样，^Stj+1有条件地抽样到^Stj。备注5.3神经网络的输出具有无界值。

20楼

nandehutu2022

发表于 2022-6-14 04:11:17

为了满足套期保值头寸的约束，对神经网络^C（θj；^Stj，^）的输出进行tanh变换j）允许在中有输出[-1，1]d.算法2第一个局部分辨率算法的后向分辨率（鞅情况）1:UN（^StN（ω），^N） =g（ST），^N∈ [0，1]d，2：对于j=N- 1，N- 2.1 do3：用于x∈ U（0，1）dθ*j=arg minθEUj+1（^Stj+1，ψj+1（φj（θ；^Stj，x）））- φj（θ；^Stj，x）。（Ftj+1- Ftj）-^Vj（θ；^Stj，x）|Ftj公司, （19）式中φj（θ；^Stj，x）=ψ-1j（x）+l tanh（^Cj（θ，^Stj，x））4： Uj（，.）=^Vj（θ*j、 .，.）5：最后：arg minp∈R∈[-l、 l]Eh（U（^St，ψ()) - C、（英尺- 英尺）- p） i5.2第二个局部算法第二个算法可以被视为第一个算法的路径泛化，其中在每个时间步，都会实现优化，以使用先前计算的命令计算当前时间步的值函数和命令。在该算法中，增益函数R由ω更新ω。然后，在Ti日，以资产价值或投资我-1日期为ti的客户-1： R（ti、Sti、，我-1） =g（ST）-dXk=1N-1Xj=i千焦（Fktj+1- Fktj），=(R)R（ti+1，Sti+1，（一）-dXk=1ki（Fkti+1- Fkti），如Warin（2019）所示，在第十一天，最佳控制与最小化问题相关：min（V，)∈R×RdE“（(R)R（ti+1，Sti+1，) -dXk=1k（Fkti+1- Fkti）- V）| Fti#。这导致了第二个算法3。算法3第二个局部分辨率的向后分辨率算法1：对于j=N- 1，N- 2.1 do2：用于x∈ U（0，1）dθ*j=arg minθEg（ST）-N-1Xk=jk、（Ftk+1- Ftk）-^Vj（θ；^Stj，x）|Stj公司, （20）在哪里j=φj（θ；^Stj，x）k+1=φk+1（θ*k+1，^Stk+1，ψk+1(k））对于k∈ [j，N- 2] φk（θ；^Stk，x）=ψ-k为1k（x）+l tanh（^Ck（θ，^Stk，x））∈ [j，N- 1] 3：最后：arg minp∈R∈[-l、 l]E“（g（ST）-N-1Xk=0k、（Ftk+1- Ftk）- p） #每个优化都使用随机梯度下降实现。

[量化金融] 基于机器学习算法的风险管理 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群