楼主: 可人4
1533 43

[量化金融] 上随机控制问题的深层神经网络算法 [推广有奖]

31
可人4 在职认证  发表于 2022-6-11 06:41:37
然后,我们在第1节的二维框架中,Xα=(P,Cα),动态规划循环中的容许控制集由以下公式给出:An(C)=一∈ {-1,0,1}:c+h(c,a)∈ [Cmin,Cmax],c∈ [最小值,最大值], n=0,N-1、测试我们将参数固定如下,以进行数值测试:ain(c)=bin(c)=0.06,aout(c)=bout(c)=0.25Ki(c)=0.01Cmax=8,Cmin=0,c=4,p=5,β=0.5,ξn+1;N(0,σ),σ=0.05,在终端惩罚函数中u=2,N=30。数值结果我们在图8中绘制了使用Qknn的时间0 w.r.t.的价值函数估计值,以及与naivedo nothing策略α=0相关的奖励函数(3.13)(参见图8中的基准)。正如所料,当AIN比aout小时,这种天真的策略表现得很好,因为在这种情况下,填充洞穴需要时间,所以代理可能不会采取任何行动,以避免在最后时刻受到任何处罚。当AIN与aout的订单相同时,很容易将洞穴填满并清空,因此代理商可以更自由地在市场上买卖天然气,而无需担心最终成本。观察值函数不是单调的,因为状态空间中的Ccomponent在有界离散集中取值(见(3.12))。ain0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4V(t=0,C0=4)-1.2-1-0.8-0.6-0.4-0.200.20.40.60.8值函数w.r.t.ainQBenchFigure 8:当代理遵循Qknn估计的策略时,通过使用大小为100000(蓝色)的样本运行前向优化蒙特卡罗,对时间0 w.r.t.ain的值函数进行估计。我们还绘制了与原始被动策略α=0(基准)相关的成本函数。请参见,对于较小的AIN值(如0.06),不执行任何操作是合理的策略。还要注意,值函数不是单调的w.r.t。

32
何人来此 在职认证  发表于 2022-6-11 06:41:40
这是由于C(3.12)的动力学。表4提供了使用ClassifPI、Hybrid Now和QKNN算法对值函数的估计。首先观察,Qknn提供的估计值大于其他算法提供的估计值,这意味着Qknn优于其他算法。第二好的算法是ClassifPI,而Hybrid现在由于控制变量运行奖励的不连续性,表现不佳,明显不稳定。表4:使用ClassifPI、Hybrid Now和Qknn算法提供的最优策略,aout=0.25、P=4和C=4,对ain不同值的V(0、P、C)估计。ainHybrid Now ClassifiFPI Qknnα=00.06-0.99-0.71-0.66-1.200.10-0.70-0.38-0.34-1.200.20-0.21 0.01 0.12-1.200.30-0.10 0.37-1.200.40 0.10 0.51 0.69-1.20最后,图9、10、11提供了Qknn、ClassifiFPI和Hybrid Now算法分别在时间5、10、15、20、25、29估计的最优决策。图9:使用Qknn在时间5、10、15、20、25、29 w.r.t.(P、C)时对能源存储估值问题的估计最优决策。注射剂(a=-1)为红色,存储(a=0)为黑色,提取(a=1)为蓝色。图10:使用ClassifPI在第5、10、15、20、25、29次w.r.t.(P、C)时对能源储备估值问题的估计最优决策。注射(a=-1)为紫色,储存(a=0)为蓝色,提取(a=1)为黄色。图11:使用Hybrid Now在第5、10、15、20、25、29次w.r.t.(P、C)时估计的最优决策。注射(a=-1)为紫色,储存(a=0)为蓝色,提取(a=1)为黄色。

33
可人4 在职认证  发表于 2022-6-11 06:41:43
观察决策的不稳定性,这是因为我们没有像预期的那样对神经网络进行预训练(见第2.2.3节),可以在每个图上观察到,最佳策略是在价格低时注入天然气,在价格高时出售天然气,并确保在终端时间越来越近时,气体体积大于洞穴中的气体体积,以将终端成本降至最低。现在让我们对算法的实现进行评论:oQknn:表4再次表明,由于问题的低维性,Qknn提供了最佳的值函数估计。图9所示的估计最优策略是对理论策略的很好估计。图9中的三个决策区域很自然,也很容易解释:基本上,当价格高时卖出,当价格低时买入是最佳选择。然而,仔细观察就会发现,等待区域(最好什么都不做)有一个不寻常的三角形形状,这主要是由于状态空间的C分量取值的空间的离散性。我们预计这种形状很难用第2节中提出的DNN basedalgorithms复制ClassifPI:如图10所示,ClassifPI算法能够在n=0,…,时为最优控制提供准确的估计,N- 然而,后者值得注意的是,它捕捉到了等待区域的特殊三角形形状,这解释了为什么Qknn表现更好Hybrid Now:如图11所示,Hybrid Now仅能提供三个不同区域在时间n=0时的相对较低估计值,与ClassifiPI和Qknn相比,N- 1.

34
大多数88 在职认证  发表于 2022-6-11 06:41:46
特别是,这些地区不稳定。在这一段的结尾,我们为我们测试的不同算法提供了一些实现细节Qknn:我们使用了第3.2.2节“半线性插值”一段中介绍的算法5的扩展。在[Bal+19]中,使用每个状态在itsk=2个最近邻上的投影来获得值函数的估计值,该值函数是连续的w.r.t。控制变量在每次n=0,N- 1、使用Brent算法在网格的每个点计算最优控制,Brent算法是Pythone中已经实现的确定性函数优化器基于神经网络的算法的实现细节:我们使用具有两个隐藏层的神经网络,ELU激活函数和20+20个神经元。输出层包含3个神经元,ClassifPI算法使用softmax激活函数,混合Now算法使用无激活函数。我们在每个时间步使用一个大小为M=60000的训练集。注意,考虑到终端成本的表达式,ReLU activationfunctions(Recti fied Linear Units)可以被认为是捕捉值函数形状的更好选择,但我们的测试显示,ELU activation functions我们可以选择其他算法来优化Q值,但在我们的测试中,Brent比我们尝试的其他选择更快,如GoldenSearch,并始终提供最佳控制的准确估计。F指数线性单位(ELU)激活函数定义为x 7→(exp(x)- 1如果x≤ 如果x>0,则为0x。提供更好的结果。在时间n=0时。

35
可人4 在职认证  发表于 2022-6-11 06:41:49
N-1,我们采用un=U(Cmin,Cmax)作为培训措施。我们没有使用第2.2.3节中讨论的列车前技巧,这解释了图11中可以观察到的决策的不稳定性。我们对这一储能示例进行数值比较的主要结论是,Classifipi(基于DNN的分类算法)是针对离散控制空间的随机控制问题而设计的,似乎比现在更通用的混合算法更精确。然而,ClassifPI无法像Qknn那样捕捉到最优控制的不寻常的三角形形状。3.5微电网管理最后,我们考虑了一个受[Hey+18]和[JP15]中开发的连续时间模型启发的电力微电网离散时间模型;另见【Ala+19】。微电网由光伏(PV)发电厂、柴油发电机和电池储能系统(BES)组成,因此使用混合燃料和可再生能源。这些发电机组是分散的,即安装规模相当小(几千瓦功率),物理上靠近电力用户。PV通过太阳能电池板发电,发电模式(Pn)取决于天气条件。柴油发电机有两种模式:开启和关闭。打开它会消耗燃料,并产生一定量的功率αn。BES可以存储能量供以后使用,但容量和功率有限。微电网管理的目的是找到满足电力需求(Dn)n表示的最优规划,同时最大限度地降低柴油发电机的运营成本。我们表示byRn=Dn- Pn,剩余电力需求:当Rn>0时,应通过柴油或电池供电,当Rn<0时,可将剩余电力储存在电池中。固定水平N上的最优控制问题公式如下。在任何时候n=0。

36
何人来此 在职认证  发表于 2022-6-11 06:41:52
N- 1,微电网管理器决定柴油发电机的发电量,要么通过将其打开:αn=0,要么通过将其打开,从而产生一个在[Amin,Amax]中取值为0<Amin<Amax<∞. 从开/关模式切换到另一开/关模式有一个固定成本κ>0,我们用时间n之前发电机{0=开,1=开}中的Mαn模式表示,即Mαn+1=1αn6=0。当柴油发电机和可再生能源提供多余的电力时,多余的电力可以储存在电池中(达到其有限的容量),以备日后使用,如果电力不足,电池会放电以满足电力需求。然后,电池充电的输入功率过程Iα由Iαn=(αn)给出- 注册护士)+∧ (Cmax- Cαn),其中Cmax是当前充电电池的最大容量Cα,而电池放电的输出功率过程Oα由Oαn=(Rn)给出- αn)+∧ 这里,我们表示p+=最大值(p,0)。为简单起见,假设电池完全有效,BES的容量电荷(Cαn)NOC(值为[0,Cmax])根据动态Cαn+1=Cαn+Iαn演变- Oαn.(3.14)由sαn=Rn定义的不平衡过程- αn+Iαn- Oαn表示我们在满足电力供应方面做得如何:理想情况发生在Sαn=0时,即需求和发电之间的完美平衡。当Sαn>0时,这意味着需求没有得到满足,即微电网中缺少电力,当αn<0时,电力过剩。为了确保没有丢失的幂,我们对容许控制施加以下约束:Sαn≤ 0,即αn≥ 注册护士- Cαn,但当Sαn<0时,按比例成本Q惩罚过量电量-> 0.我们将剩余需求建模为均值回复过程:Rn+1=(R)R(1- ) + Rn+εn+1,其中(εn)nare i.i.d.,\'R∈ R、 以及 < 1.

37
nandehutu2022 在职认证  发表于 2022-6-11 06:41:55
微电网管理者的目标是找到使功能成本j(α)=E“N最小化的最佳(可接受)决策α-1Xn=0(αn)+κ1{Mαn6=Mαn+1}+Q-(Sαn)-#,哪里(.) 是燃油消耗的成本函数:(0)=0,例如。(a) =Kaγ,k>0,γ>0。该随机控制问题符合第1节的三维框架(另见备注2.4),控制α的值为A={0}×[Amin,Amax],Xα=(Cα,Mα,R),噪声εn+1,从状态空间[0,Cmax]×{0,1}×R上的初始值(Cα,Mα,R)=(C,0,R)开始,并具有动力学函数f(X,A,e)=F(x,a):=c+(a- r)+∧ (Cmax- c)- (r)-(a)+∧ ca6=0?R(1- ) + r+e,对于x=(c,m,r)∈ [0,Cmax]×{0,1}×R,a∈ {0}×[Amin,Amax],e∈ R、 运行成本函数f(x,a)=(a) +κ1m=1a=0+Q-S(x,a)-,S(x,a)=r- a+(a- r)+∧ (Cmax- c)- (r)-(a)+∧ c、 零终端成本g=0,控制约束tan(x)=na∈ {0}×[阿明,Amax]:S(x,a)≤ 0o=不适用∈ {0}×[Amin,Amax]:r- c≤ ao。备注3.2基于神经网络的算法通过在运行成本中引入惩罚函数来管理状态/空间约束(见备注2.4):f(x,a)← f(x,a)+L(x,a)L(x,a)=Q+r- c- 一+大Q+比Q大得多-. 这样,基于神经网络的最优控制估计就学会了不做出任何禁止的决策。2控制空间{0}∪【Amin,Amax】是离散空间和连续空间的混合体,这对神经网络算法来说是一个挑战。实际上,我们使用分类和标准DNN的混合物来控制:(p(x;θ),π(x;β)),值在[0,1]×Amin,Amax中,其中p(x;θ)是状态x中的翻转概率,π(x;β)是以概率1开启时的功率- p(x;θ)。

38
大多数88 在职认证  发表于 2022-6-11 06:41:58
换句话说,Xn+1=(F(Xn,0,εn+1),概率p(Xn;θn)F(Xn,π(Xn;βn),εn+1),概率1- p(Xn;θn)这种方法的伪代码是专门为这个问题设计的,写在算法6中,我们将其称为ClassififHybrid。请特别注意,它是ClassifPI的混合版本。算法6:ClassififHybridInput:训练分布(un)n-1n=0;输出:–最优策略估计(^an)N-1n=0;–值函数(^Vn)N的估计-1n=0;设置^VN=g;对于n=n-1.0文件(^βn,^βn)∈ argmaxβ,βE“p(Xn;β)hf(Xn,0)+^Vn+1f(^Xn+1i+(1- p(Xn;β))hf(Xn,π(Xn;β))+^Vn+1^X1,βn+1i#,其中Xn;un,^Xn+1=F(Xn,0,εn+1),^X1,βn+1=F(Xn,π(Xn;β),εn+1);计算^θn∈ argminθE“pXn;^βnhf(Xn,0)+^Vn+1f(^Xn+1- Φ(;θ)i+1.- pXn;^βnhf(Xn,π(Xn;βn))+^Vn+1^X1,^βnn+1- Φ(;θ)i#;设置^Vn=Φ(;^θn);^vn是时间nTest时值函数的估计值。我们将参数设置为以下值,以比较Qknn和ClassifHybrid:N=30或200,(R)R=0.1, = 0.9,σ=0.2,Cmin=0,Cmax=1或4,C=0,K=2,γ=2,κ=0.2,Q-= 10,R=0.1,Amin=0.05,Amax=10 Q+=1000。结果图12显示了在m=Mn=0和m=Mn=1的情况下,在n=1、10、28时,Qknn估计的最佳决策。如果发电机在时间n时有效,即m=0,则蓝色曲线将保持有效的最佳区域和发电的最佳区域分开。如果发电机在时间n打开,即m=1,则蓝色曲线将最佳转动区域和最佳发电区域分开。右边有一个色阶,可以告诉你在这两种情况下产生的最佳功率是多少。请注意,最佳决策是非常有启发性的:例如,如果需求量很大,而电池电量不足,则最好能产生大量能量。

39
何人来此 在职认证  发表于 2022-6-11 06:42:01
此外,如果需求为负值或电池充电足以满足需求,则最好将发电机反转。我们在图13中绘制了n=1、10、28时的估计最优决策,使用Hybrid Now算法,n=30个时间步。请注意,这些决策与使用Qknn给出的决策类似。请注意,图12和13中的曲线图看起来比[Ala+19]中得到的曲线图要好得多,其中使用了基于现在回归或以后回归的算法(具体参见[Ala+19]中的图4);因此,Qknn和ClassififHybrid似乎比[Ala+19]中提出的算法更稳定。我们在表5中报告了通过使用Qknn和ClassifHybrid算法估计的最优策略,在10000次模拟下运行10次正向蒙特卡罗,得到的N=30时间步的值函数估计结果。观察到该混合型现在的性能优于Qknn。然而,Qknn的运行时间不到一分钟,而Hybrid现在需要七分钟。我们还在表6中报告了N=200个时间步的值函数估计值,该值函数估计值是通过使用Qknn estimatedoptimal策略在10000次模拟中运行20次前向蒙特卡罗获得的。表5:使用Qknn和ClassifHybrid算法,对N=30和Cmax=1的时间0和状态(C=0,M=0,R=0.1)的值函数进行估计。请注意,ClassififHybrid在这个问题上取得了比Qknn更好的结果。平均stdClassifHybrid 33.34 0.31Qknn 35.37 0.34表6:时间0和状态(C=0,M=0,R=0.1)时值函数的Qknn估计,n=200。平均标准偏差231.8 1.2图12:使用Qknn在时间1、10和28时估计的最佳决策,N=30个时间步。如果m=1(即发电机在时间n-1时开启),则蓝线下的区域是最好的旋转发电机的区域,如果m=0(即。

40
大多数88 在职认证  发表于 2022-6-11 06:42:04
发电机在时间n-1)时失效。0.0 0.2 0.4 0.6 0.8 1.0C0.60.40.20.00.20.40.60.8R对于m=00.20.40.60.81.00.0 0 0.2 0.4 0.6 0.8 1.0C0.60.20.00.20.40.60.8R对于m=10.20.40.60.81.00.0 0 0 0.2 0.4 0.8 0.8 1.51.5R对于对于m=00.20.40.60.81.01.21.41.61.80.0 0.2 0.4 0.6 0.8 1.0C1.51.00.50.00.51.01.5R,时间n=10对于m=10.250.500.751.001.251.501.750.0,时间n=100.2 0.4 0.6 0.8 1.0C1.51.00.50.00.51.01.5R对于m=00.20.40.60.81.01.21.40.0 0 0.2 0.4 0.6 0.8 1.0C1.51.00.50.00.51.01.5R对于m=10.20.40.60.81.01.21.4,n=28时的决策图13:使用ClassififHybrid估计时间1、10和28时的最佳决策,n=30个时间步。0123C01M0 25 50 75 100 125 150 175 200n1.00.50.00.5R0123C01M0 25 50 75 100 125 150 175 200N101R图14:使用Qknn优化控制(C、M、R)的两个模拟,N=200,Cmax=4。图14显示了使用Qknn估计最优策略控制的(C、M、R)的两个模拟,其中选择了N=200。特别注意Qknn决策的自然行为,即在电池无法满足需求时打开发电机,并在需求为负值或电池放电到足以满足需求时打开发电机。请注意,这些图与[Ala+19]图9中绘制的图相似。对Qknn的评论:注意,没有必要使用Qknn算法的惩罚方法来约束控制停留在An(x)中,其中x是时间n的状态,因为对于所有状态x,我们可以简单地搜索An(x)中关联的最优控制,例如使用Brent算法。对于n=0,N- 1,我们的训练集如下:n:=C×{0,1}×nR;式中,ΓC:={Cmin+i(Cmax- Cmin),i=0。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 06:09