|
,50},ΓnR:=ρnR+σ1-ρn1-ρΓ,其中Γ是N(0,1)量化的最佳网格,可在http://www.quantize.maths-fi.com,得51分。C组分的训练点选择与Remark2.1中讨论的勘探程序相对应,而我们为(非受控)R组分选择了具有51个点的最佳网格。对ClassifHybrid的评论:我们用100个300大小的小批次和100个时代来运行该算法。我们在时间n选择了以下训练分布:un=U(Cmin,Cmax)×U({0,1})×PRn,其中PRn是时间tn的(非受控)剩余需求定律。注意,这种训练分布的选择意味着我们想要探索受控过程(C,M,R)受控组件的所有可用状态,以便全局学习最优策略。由于控制空间{0},微电网管理问题对我们的算法来说非常具有挑战性∪ 【amin,amax】是离散和连续空间的混合体,而且最优控制的选择受到约束。我们设计了ClassifHybrid,ClassifPI的一个混合版本,来解决这个问题。ClassififHybrid提供了非常好的估计,实际上表现比Qknn更好。4讨论和结论我们提出的算法设计良好,能够准确估计与各种高维控制问题相关的最优控制和值函数。此外,当在低维问题上进行测试时,他们的表现与基于蒙特卡罗basedor量化的方法一样好,这表明了他们在低维方面的效率,参见[Bal+19]和[Ala+19]。由于2(N)的昂贵训练,所提出的算法具有相当高的时间消耗成本- 1) 在n=0,…,时学习值函数和最优控制的神经网络,N-然而,代理可以轻松地减少计算时间。
|