上随机控制问题的深层神经网络算法 - 第4页 - 外文文献专区

31楼

发表于 2022-6-11 06:41:37

然后，我们在第1节的二维框架中，Xα=（P，Cα），动态规划循环中的容许控制集由以下公式给出：An（C）=一∈ {-1，0，1}：c+h（c，a）∈ [Cmin，Cmax]，c∈ [最小值，最大值], n=0，N-1、测试我们将参数固定如下，以进行数值测试：ain（c）=bin（c）=0.06，aout（c）=bout（c）=0.25Ki（c）=0.01Cmax=8，Cmin=0，c=4，p=5，β=0.5，ξn+1；N（0，σ），σ=0.05，在终端惩罚函数中u=2，N=30。数值结果我们在图8中绘制了使用Qknn的时间0 w.r.t.的价值函数估计值，以及与naivedo nothing策略α=0相关的奖励函数（3.13）（参见图8中的基准）。正如所料，当AIN比aout小时，这种天真的策略表现得很好，因为在这种情况下，填充洞穴需要时间，所以代理可能不会采取任何行动，以避免在最后时刻受到任何处罚。当AIN与aout的订单相同时，很容易将洞穴填满并清空，因此代理商可以更自由地在市场上买卖天然气，而无需担心最终成本。观察值函数不是单调的，因为状态空间中的Ccomponent在有界离散集中取值（见（3.12））。ain0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4V（t=0，C0=4）-1.2-1-0.8-0.6-0.4-0.200.20.40.60.8值函数w.r.t.ainQBenchFigure 8：当代理遵循Qknn估计的策略时，通过使用大小为100000（蓝色）的样本运行前向优化蒙特卡罗，对时间0 w.r.t.ain的值函数进行估计。我们还绘制了与原始被动策略α=0（基准）相关的成本函数。请参见，对于较小的AIN值（如0.06），不执行任何操作是合理的策略。还要注意，值函数不是单调的w.r.t。

32楼

何人来此

发表于 2022-6-11 06:41:40

这是由于C（3.12）的动力学。表4提供了使用ClassifPI、Hybrid Now和QKNN算法对值函数的估计。首先观察，Qknn提供的估计值大于其他算法提供的估计值，这意味着Qknn优于其他算法。第二好的算法是ClassifPI，而Hybrid现在由于控制变量运行奖励的不连续性，表现不佳，明显不稳定。表4：使用ClassifPI、Hybrid Now和Qknn算法提供的最优策略，aout=0.25、P=4和C=4，对ain不同值的V（0、P、C）估计。ainHybrid Now ClassifiFPI Qknnα=00.06-0.99-0.71-0.66-1.200.10-0.70-0.38-0.34-1.200.20-0.21 0.01 0.12-1.200.30-0.10 0.37-1.200.40 0.10 0.51 0.69-1.20最后，图9、10、11提供了Qknn、ClassifiFPI和Hybrid Now算法分别在时间5、10、15、20、25、29估计的最优决策。图9：使用Qknn在时间5、10、15、20、25、29 w.r.t.（P、C）时对能源存储估值问题的估计最优决策。注射剂（a=-1）为红色，存储（a=0）为黑色，提取（a=1）为蓝色。图10：使用ClassifPI在第5、10、15、20、25、29次w.r.t.（P、C）时对能源储备估值问题的估计最优决策。注射（a=-1）为紫色，储存（a=0）为蓝色，提取（a=1）为黄色。图11：使用Hybrid Now在第5、10、15、20、25、29次w.r.t.（P、C）时估计的最优决策。注射（a=-1）为紫色，储存（a=0）为蓝色，提取（a=1）为黄色。

33楼

可人4

发表于 2022-6-11 06:41:43

观察决策的不稳定性，这是因为我们没有像预期的那样对神经网络进行预训练（见第2.2.3节），可以在每个图上观察到，最佳策略是在价格低时注入天然气，在价格高时出售天然气，并确保在终端时间越来越近时，气体体积大于洞穴中的气体体积，以将终端成本降至最低。现在让我们对算法的实现进行评论：oQknn：表4再次表明，由于问题的低维性，Qknn提供了最佳的值函数估计。图9所示的估计最优策略是对理论策略的很好估计。图9中的三个决策区域很自然，也很容易解释：基本上，当价格高时卖出，当价格低时买入是最佳选择。然而，仔细观察就会发现，等待区域（最好什么都不做）有一个不寻常的三角形形状，这主要是由于状态空间的C分量取值的空间的离散性。我们预计这种形状很难用第2节中提出的DNN basedalgorithms复制ClassifPI：如图10所示，ClassifPI算法能够在n=0，…，时为最优控制提供准确的估计，N- 然而，后者值得注意的是，它捕捉到了等待区域的特殊三角形形状，这解释了为什么Qknn表现更好Hybrid Now：如图11所示，Hybrid Now仅能提供三个不同区域在时间n=0时的相对较低估计值，与ClassifiPI和Qknn相比，N- 1.

34楼

大多数88

发表于 2022-6-11 06:41:46

特别是，这些地区不稳定。在这一段的结尾，我们为我们测试的不同算法提供了一些实现细节Qknn：我们使用了第3.2.2节“半线性插值”一段中介绍的算法5的扩展。在[Bal+19]中，使用每个状态在itsk=2个最近邻上的投影来获得值函数的估计值，该值函数是连续的w.r.t。控制变量在每次n=0，N- 1、使用Brent算法在网格的每个点计算最优控制，Brent算法是Pythone中已经实现的确定性函数优化器基于神经网络的算法的实现细节：我们使用具有两个隐藏层的神经网络，ELU激活函数和20+20个神经元。输出层包含3个神经元，ClassifPI算法使用softmax激活函数，混合Now算法使用无激活函数。我们在每个时间步使用一个大小为M=60000的训练集。注意，考虑到终端成本的表达式，ReLU activationfunctions（Recti fied Linear Units）可以被认为是捕捉值函数形状的更好选择，但我们的测试显示，ELU activation functions我们可以选择其他算法来优化Q值，但在我们的测试中，Brent比我们尝试的其他选择更快，如GoldenSearch，并始终提供最佳控制的准确估计。F指数线性单位（ELU）激活函数定义为x 7→（exp（x）- 1如果x≤ 如果x>0，则为0x。提供更好的结果。在时间n=0时。

35楼

可人4

发表于 2022-6-11 06:41:49

N-1，我们采用un=U（Cmin，Cmax）作为培训措施。我们没有使用第2.2.3节中讨论的列车前技巧，这解释了图11中可以观察到的决策的不稳定性。我们对这一储能示例进行数值比较的主要结论是，Classifipi（基于DNN的分类算法）是针对离散控制空间的随机控制问题而设计的，似乎比现在更通用的混合算法更精确。然而，ClassifPI无法像Qknn那样捕捉到最优控制的不寻常的三角形形状。3.5微电网管理最后，我们考虑了一个受[Hey+18]和[JP15]中开发的连续时间模型启发的电力微电网离散时间模型；另见【Ala+19】。微电网由光伏（PV）发电厂、柴油发电机和电池储能系统（BES）组成，因此使用混合燃料和可再生能源。这些发电机组是分散的，即安装规模相当小（几千瓦功率），物理上靠近电力用户。PV通过太阳能电池板发电，发电模式（Pn）取决于天气条件。柴油发电机有两种模式：开启和关闭。打开它会消耗燃料，并产生一定量的功率αn。BES可以存储能量供以后使用，但容量和功率有限。微电网管理的目的是找到满足电力需求（Dn）n表示的最优规划，同时最大限度地降低柴油发电机的运营成本。我们表示byRn=Dn- Pn，剩余电力需求：当Rn>0时，应通过柴油或电池供电，当Rn<0时，可将剩余电力储存在电池中。固定水平N上的最优控制问题公式如下。在任何时候n=0。

36楼

何人来此

发表于 2022-6-11 06:41:52

N- 1，微电网管理器决定柴油发电机的发电量，要么通过将其打开：αn=0，要么通过将其打开，从而产生一个在[Amin，Amax]中取值为0<Amin<Amax<∞. 从开/关模式切换到另一开/关模式有一个固定成本κ>0，我们用时间n之前发电机{0=开，1=开}中的Mαn模式表示，即Mαn+1=1αn6=0。当柴油发电机和可再生能源提供多余的电力时，多余的电力可以储存在电池中（达到其有限的容量），以备日后使用，如果电力不足，电池会放电以满足电力需求。然后，电池充电的输入功率过程Iα由Iαn=（αn）给出- 注册护士）+∧ （Cmax- Cαn），其中Cmax是当前充电电池的最大容量Cα，而电池放电的输出功率过程Oα由Oαn=（Rn）给出- αn）+∧ 这里，我们表示p+=最大值（p，0）。为简单起见，假设电池完全有效，BES的容量电荷（Cαn）NOC（值为[0，Cmax]）根据动态Cαn+1=Cαn+Iαn演变- Oαn.（3.14）由sαn=Rn定义的不平衡过程- αn+Iαn- Oαn表示我们在满足电力供应方面做得如何：理想情况发生在Sαn=0时，即需求和发电之间的完美平衡。当Sαn>0时，这意味着需求没有得到满足，即微电网中缺少电力，当αn<0时，电力过剩。为了确保没有丢失的幂，我们对容许控制施加以下约束：Sαn≤ 0，即αn≥ 注册护士- Cαn，但当Sαn<0时，按比例成本Q惩罚过量电量-> 0.我们将剩余需求建模为均值回复过程：Rn+1=(R)R（1- ) + Rn+εn+1，其中（εn）nare i.i.d.，\'R∈ R、以及 < 1.

37楼

nandehutu2022

发表于 2022-6-11 06:41:55

微电网管理者的目标是找到使功能成本j（α）=E“N最小化的最佳（可接受）决策α-1Xn=0（αn）+κ1{Mαn6=Mαn+1}+Q-（Sαn）-#,哪里(.) 是燃油消耗的成本函数：（0）=0，例如。（a） =Kaγ，k>0，γ>0。该随机控制问题符合第1节的三维框架（另见备注2.4），控制α的值为A={0}×[Amin，Amax]，Xα=（Cα，Mα，R），噪声εn+1，从状态空间[0，Cmax]×{0，1}×R上的初始值（Cα，Mα，R）=（C，0，R）开始，并具有动力学函数f（X，A，e）=F（x，a）：=c+（a- r）+∧ （Cmax- c）- （r）-（a）+∧ ca6=0？R（1- ) + r+e,对于x=（c，m，r）∈ [0，Cmax]×{0，1}×R，a∈ {0}×[Amin，Amax]，e∈ R、运行成本函数f（x，a）=（a） +κ1m=1a=0+Q-S（x，a）-,S（x，a）=r- a+（a- r）+∧ （Cmax- c）- （r）-（a）+∧ c、零终端成本g=0，控制约束tan（x）=na∈ {0}×[阿明，Amax]：S（x，a）≤ 0o=不适用∈ {0}×[Amin，Amax]：r- c≤ ao。备注3.2基于神经网络的算法通过在运行成本中引入惩罚函数来管理状态/空间约束（见备注2.4）：f（x，a）← f（x，a）+L（x，a）L（x，a）=Q+r- c- 一+大Q+比Q大得多-. 这样，基于神经网络的最优控制估计就学会了不做出任何禁止的决策。2控制空间{0}∪【Amin，Amax】是离散空间和连续空间的混合体，这对神经网络算法来说是一个挑战。实际上，我们使用分类和标准DNN的混合物来控制：（p（x；θ），π（x；β）），值在[0，1]×Amin，Amax中，其中p（x；θ）是状态x中的翻转概率，π（x；β）是以概率1开启时的功率- p（x；θ）。

38楼

大多数88

发表于 2022-6-11 06:41:58

换句话说，Xn+1=（F（Xn，0，εn+1），概率p（Xn；θn）F（Xn，π（Xn；βn），εn+1），概率1- p（Xn；θn）这种方法的伪代码是专门为这个问题设计的，写在算法6中，我们将其称为ClassififHybrid。请特别注意，它是ClassifPI的混合版本。算法6：ClassififHybridInput：训练分布（un）n-1n=0；输出：–最优策略估计（^an）N-1n=0；–值函数（^Vn）N的估计-1n=0；设置^VN=g；对于n=n-1.0文件（^βn，^βn）∈ argmaxβ，βE“p（Xn；β）hf（Xn，0）+^Vn+1f（^Xn+1i+（1- p（Xn；β））hf（Xn，π（Xn；β））+^Vn+1^X1，βn+1i#，其中Xn；un，^Xn+1=F（Xn，0，εn+1），^X1，βn+1=F（Xn，π（Xn；β），εn+1）；计算^θn∈ argminθE“pXn；^βnhf（Xn，0）+^Vn+1f（^Xn+1- Φ（；θ）i+1.- pXn；^βnhf（Xn，π（Xn；βn））+^Vn+1^X1，^βnn+1- Φ（；θ）i#；设置^Vn=Φ（；^θn）；^vn是时间nTest时值函数的估计值。我们将参数设置为以下值，以比较Qknn和ClassifHybrid：N=30或200，(R)R=0.1， = 0.9，σ=0.2，Cmin=0，Cmax=1或4，C=0，K=2，γ=2，κ=0.2，Q-= 10，R=0.1，Amin=0.05，Amax=10 Q+=1000。结果图12显示了在m=Mn=0和m=Mn=1的情况下，在n=1、10、28时，Qknn估计的最佳决策。如果发电机在时间n时有效，即m=0，则蓝色曲线将保持有效的最佳区域和发电的最佳区域分开。如果发电机在时间n打开，即m=1，则蓝色曲线将最佳转动区域和最佳发电区域分开。右边有一个色阶，可以告诉你在这两种情况下产生的最佳功率是多少。请注意，最佳决策是非常有启发性的：例如，如果需求量很大，而电池电量不足，则最好能产生大量能量。

39楼

何人来此

发表于 2022-6-11 06:42:01

此外，如果需求为负值或电池充电足以满足需求，则最好将发电机反转。我们在图13中绘制了n=1、10、28时的估计最优决策，使用Hybrid Now算法，n=30个时间步。请注意，这些决策与使用Qknn给出的决策类似。请注意，图12和13中的曲线图看起来比[Ala+19]中得到的曲线图要好得多，其中使用了基于现在回归或以后回归的算法（具体参见[Ala+19]中的图4）；因此，Qknn和ClassififHybrid似乎比[Ala+19]中提出的算法更稳定。我们在表5中报告了通过使用Qknn和ClassifHybrid算法估计的最优策略，在10000次模拟下运行10次正向蒙特卡罗，得到的N=30时间步的值函数估计结果。观察到该混合型现在的性能优于Qknn。然而，Qknn的运行时间不到一分钟，而Hybrid现在需要七分钟。我们还在表6中报告了N=200个时间步的值函数估计值，该值函数估计值是通过使用Qknn estimatedoptimal策略在10000次模拟中运行20次前向蒙特卡罗获得的。表5：使用Qknn和ClassifHybrid算法，对N=30和Cmax=1的时间0和状态（C=0，M=0，R=0.1）的值函数进行估计。请注意，ClassififHybrid在这个问题上取得了比Qknn更好的结果。平均stdClassifHybrid 33.34 0.31Qknn 35.37 0.34表6：时间0和状态（C=0，M=0，R=0.1）时值函数的Qknn估计，n=200。平均标准偏差231.8 1.2图12：使用Qknn在时间1、10和28时估计的最佳决策，N=30个时间步。如果m=1（即发电机在时间n-1时开启），则蓝线下的区域是最好的旋转发电机的区域，如果m=0（即。

40楼

大多数88

发表于 2022-6-11 06:42:04

发电机在时间n-1）时失效。0.0 0.2 0.4 0.6 0.8 1.0C0.60.40.20.00.20.40.60.8R对于m=00.20.40.60.81.00.0 0 0.2 0.4 0.6 0.8 1.0C0.60.20.00.20.40.60.8R对于m=10.20.40.60.81.00.0 0 0 0.2 0.4 0.8 0.8 1.51.5R对于对于m=00.20.40.60.81.01.21.41.61.80.0 0.2 0.4 0.6 0.8 1.0C1.51.00.50.00.51.01.5R，时间n=10对于m=10.250.500.751.001.251.501.750.0，时间n=100.2 0.4 0.6 0.8 1.0C1.51.00.50.00.51.01.5R对于m=00.20.40.60.81.01.21.40.0 0 0.2 0.4 0.6 0.8 1.0C1.51.00.50.00.51.01.5R对于m=10.20.40.60.81.01.21.4，n=28时的决策图13：使用ClassififHybrid估计时间1、10和28时的最佳决策，n=30个时间步。0123C01M0 25 50 75 100 125 150 175 200n1.00.50.00.5R0123C01M0 25 50 75 100 125 150 175 200N101R图14：使用Qknn优化控制（C、M、R）的两个模拟，N=200，Cmax=4。图14显示了使用Qknn估计最优策略控制的（C、M、R）的两个模拟，其中选择了N=200。特别注意Qknn决策的自然行为，即在电池无法满足需求时打开发电机，并在需求为负值或电池放电到足以满足需求时打开发电机。请注意，这些图与[Ala+19]图9中绘制的图相似。对Qknn的评论：注意，没有必要使用Qknn算法的惩罚方法来约束控制停留在An（x）中，其中x是时间n的状态，因为对于所有状态x，我们可以简单地搜索An（x）中关联的最优控制，例如使用Brent算法。对于n=0，N- 1，我们的训练集如下：n：=C×{0，1}×nR；式中，ΓC：={Cmin+i（Cmax- Cmin），i=0。

[量化金融] 上随机控制问题的深层神经网络算法 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群