概率约束随机最优解的统计学习 - 第2页 - 外文文献专区

11楼

nandehutu2022

发表于 2022-6-14 15:35:59

因此，我们使用近似动态规划递归^Vn（Xn）=infun∈^Un（Xn）n^Cn（Xn，Un）o，其中^Cn（Xn，Un）：=^EZtn+1tnπs（X（s），un）ds+^Vn+1（X（tn+1））Xn，un.（2.10）以上，^E是近似投影算子，可容许控制集^Unis也通过^pn（·，·），即^Un（Xn）近似：=u：^pn（Xn，u）<p, 或^qn（·，·），即^Un（Xn）=u：^qn（Xn，u）≤ 0, 见（2.8）。估计最优控制^un∈^Un（Xn）满意度^Vn（Xn）=^Cn（Xn，^Un）。我们的算法和定义回归蒙特卡罗范式的关键思想是通过基于蒙特卡罗模拟的经验回归实现^E和^U。换言之，我们基于X的实现路径构建随机、概率定义的近似。这一理念允许同时处理数值积分（针对随机冲击inX）和数值插值（对于任意X定义Vn（X））以解（2.10）。要理解RMC，请记住指定^E相当于近似条件期望映射（x，u）7→ E[ψ（X（s））s∈[总氮，总氮+1]|Xn=x，un=u】=：f（x，u），其中我们具体替换ψ（X（s））s∈[总氮，总氮+1]=Ztn+1tnπs（X（s），un）ds+Vn+1（X（tn+1））。为此，我们考虑一个由输入（xn，un）组成的数据集，（xMcn，uMcn）和相应的路径实现y，Ymcw，yj=ψ（x（s））js∈[总氮，总氮+1], 其中（x（s））js∈【tn，tn+1】是从过程（X（s））的分布中独立得出的结果∈[总氮，总氮+1]|（xjn，ujn）。然后，我们使用训练集{xjn，ujn，yj}Mcj=1，通过回归计算f的估计量^f。6 A.BALATA、M.LUDKOVSKI、A.MAHESHWARI和J。

12楼

何人来此

发表于 2022-6-14 15:36:02

Palczewski类似地，估计Unis相当于学习条件概率图pn（x，u）（或（2.3）中的条件分位数图qn（x，u）），然后与阈值p（分别为零）进行比较。第4节讨论了这项统计任务，它与RMC的结合是我们的主要贡献。[24]和[36]在美国期权定价和进一步强化的背景下，在著名著作中发展了使用回归逼近连续值的技术[10，25]。在[4、8、9、13、26]中，这被扩展用于存储问题和受控状态过程。在近似f的方法中，我们提到了[39]和[26]，他们利用问题的结构来降低回归的维数，[4，5]利用过程分布来减少^f的方差，以及[21，26，39]使用非参数回归方法来计算^f。在[38]中，还讨论了用于解决高维存储问题的随机对偶动态规划中基于回归的方法。与上述成熟的文献相比，关于估算容许控制集^Un（Xn）的内容很少，这需要近似方程式（2.3）中的p（x，u）（或q（x，u））。关于在一个周期设置中学习单个全局可容许集^U，有一些结果，但这些方法不会转移到依赖于状态和时间的可容许性约束的上下文中。一种简单的方法是通过嵌套蒙特卡罗来估计反向归纳过程中实现的每个状态的^Un（Xn）。也就是说，对于遇到的每一对（x，u），我们可以通过模拟条件分布Gn（x，u）中的Mbsamples，将违反约束的概率估计为{gbn（x，u）}Mbb=1。然后我们开始∈^Un（x）如果pn（x，u）<p，其中pn（x，u）：=MbXb=1gbn（x，u）>0Mb（2.11）是经验概率。

13楼

可人4

发表于 2022-6-14 15:36:05

尽管这种嵌套蒙特卡罗（NMC）方法易于实现，但即使对于最简单的问题，它也难以计算。例如，典型的RMC方案employsMc≈ 对于内部模拟，假设Mb=1000，这对于小概率p的良好估计是必要的≤ 0.1，将需要在每个时间步进行10个模拟预算，以实现NMC。此外，请注意，NMC仅返回局部估计值‘p（x，u）；对于任意x或u，未分别提供Un（x）或Xan（u）的函数估计。因此，任何样本外评估（即X的未来样本路径）都需要进一步的内部模拟，这使得这种实现在计算上更加困难。使用^U的一个重要挑战是验证可采性。由于我们使用蒙特卡罗样本来确定u在x处是否可容许，这是一种概率陈述，并且不能100%保证可容许性。我们可以使用统计理论来量化U的估计量的准确性，例如，通过对真p（x，U）的估计量p（x，U）应用中心极限定理工具。特别是，我们开发了基于置信区间的工具，以便做出声明（具有渐近保证），如“u∈ U的95%置信度”（相当于p（x，U）<p的95%概率取决于收集的数据）。要达到合理的置信水平，需要对^U进行“保守”估计。正如我们所示，不这样做会使学习U变得非常不可靠，经常会导致在施加的概率约束方面不可接受的决策。因此，具有特定置信水平ρ的^U（ρ）的相关构造是第4.2.2节的主题。动机：控制微电网中的停电概率。

14楼

mingdashike22

发表于 2022-6-14 15:36:15

为了使我们的陈述具体化，我们通过形式化微观网格统计学习在概率约束随机最优控制7管理中的激励应用来说明（2.5）的框架。微电网由可再生能源和传统发电源以及存储介质组成，其设计和管理旨在以分散的方式向社区提供电力。我们考虑一个由可调度的柴油发电机、可再生能源和蓄电池组成的系统。微电网拓扑如图1左面板所示，与[26]中讨论的示例相同。图1：左面板：微电网拓扑：负荷、柴油发电机、电池和可再生能源。右：最小容许柴油输出（L、I、C）的轮廓图7→ Umin（L、I、C）（见备注2.1）。对于L<0，约束为notbinding且Umin（L，I，C）=0。随着需求的增加，约束变得更加严格，即Umin（L，i，C）在L中增加。红色曲线表示受控需求库存对（Lu）的路径*n、国际单位*n、铜*n）遵循近视策略选择最小容许控制un（Ln，In，Cn）=Umin（Ln，In，Cn）。当红线穿过第一条等高线的R.H.S.时，可通过观察来观察状态C，表明柴油发电机应开启。在这种情况下，状态变量为X（t）=（L（t），I（t），C（t）），其中L（t）是净需求（可再生能源发电的需求净额），I（t）∈ [0，Imax]是电池的充电状态，称为“库存”，C（t）∈ {0，1}是柴油发电机的状态。C（t）=0表示柴油机正在关闭，C（t）=1表示打开。控制器通过控制u（t）控制柴油机，指示机组的功率输出。

15楼

kedemingshi

发表于 2022-6-14 15:36:18

为了解释清楚，我们假设净需求L（t）是一个外生过程，而I（t）是受控的。我们重申，控制决定是在谨慎的情况下作出的{t，t，…，tN-1} 然而，这些决策会持续影响系统的状态。u（tn）的选择≡ unat时间tn基于最小化微电网运行成本，以及控制【tn，tn+1】期间停电（即无法满足净需求）的概率。停电通过不平衡过程S（S）：=L（S）描述- 联合国- B（s），s∈ [tn，tn+1），表示需求和供应之间的差异，而柴油输出在时间步长内保持不变。电池的功率输出是净需求、库存和控制的确定函数，B（s）=受电池物理限制的Д（L（s），I（s），un。B（s）>0表示电池和B（s）的供电<0表示电池充电。因此，可接受的控制集为：（2.12）Un（Ln，In，Cn）：=（u:Psups公司∈[总氮，总氮+1）硫>0（Ln、In、Cn、u）< p）。因此，在微电网的背景下，方程（2.6）的条件分布Gnof和相应的Pn（Ln，in，Cn）为：（2.13）Gn（Ln，in，Cn，un）=Lsups公司∈[总氮，总氮+1）秒（Ln、In、Cn、un）,pn（Ln，In，Cn，un）=P（Gn（Ln，In，Cn，un）>0）。8 A.BALATA、M.LUDKOVSKI、A.MAHESHWARI和J.Palczewski由于pn（一般）在分析上不可用，可采性条件pn（Ln，in，Cn）<p是简单的。回想一下，我们用W=0表示∪ 无约束控制集。我们假设u（t）=0表示柴油机关闭，而u（t）>0表示柴油机开启，且处于输出水平u（t）。因此，我们确定C（s）={un>0}s∈ （tn，tn+1），时间间隔保持打开状态，以便在tn时识别柴油发电机的开启和关闭。

16楼

nandehutu2022

发表于 2022-6-14 15:36:28

还要注意的是，过程C（t）并不满足受控的差异动力学，但框架的这种轻微扩展不会影响所提供的方法和结果。然后，我们看一下一般问题的以下公式：（2.14）Vn（Ln，In，Cn）=min{uk}N-1k=n（E“n-1Xk=n{Ck=0，uk>0}K+ρ（uk）tk公司+ W（LN、IN、CN）（Ln，In，Cn）#），以P为准sups公司∈[油箱，油箱+1）秒>0（Lk、Ik、Ck、英国）< p、 k=n，N- 1，其中tk=tk+1- tk，ρ（uk）是使用功率输出uk运行柴油发电机的瞬时成本，K是开启柴油发电机的成本。我们假设发电机的运转成本为零。对应于（2.14）的TheDPE与（2.5）中的相同，积分运行成本rtn+1tnπs（X（s），un）ds替换为{Cn=0，un>0}K+ρ（un）tn.备注2.4。容许集U 这个问题的W有一个特殊的结构：如果u∈ U（x），然后 W 3▄u>u，▄u∈ U（x）。因此，我们可以表示U（x）=[uMin（x），\'U]∩ W表示最小容许柴油输出Umin（x）。相反，固定u∈ W嵌套：ifu≤ uthen Xan（u） Xan（u）。这建议随着u的增加，依次计算Xan（u），然后反转得到u（x）。为了可视化最小容许控制Umin（x），图1的右面板显示了贴图x→ 在p=0.01的约束条件下，Umin（x）停电概率。我们还提出了（L（t），I（t），C（t））t的路径≥0使用短视策略，其中控制器在每个点采用最小容许控制，un：=Umin（Ln，In，Cn）n、请注意，在大多数情况下，Umin（·）=0使得Un（·）=W和blackout约束没有绑定。这并不奇怪，因为只有当L（t）时才可能发生停电 0为强正极，电池几乎为空，I（t）\'0。因此，除了右下角，任何控件都是允许的。

17楼

nandehutu2022

发表于 2022-6-14 15:36:31

因此，只有域x的一小部分实际需要额外的力来估计容许集U（x）。根据我们的经验，这种结构很常见，其中约束不一定是有约束力的，并且我们主要执行无约束优化。3、动态仿真算法。在本节中，我们将介绍我们的动态仿真算法，该算法为容许集^Un（·）和连续值函数^Cn（·，·）提供近似值。该算法的关键是以下两个步骤，在每个时间步并行实现：生成设计→ 生成一步路径和容许性统计→ 估计容许集生成设计→ 生成一步路径和路径特性→ 概率约束随机最优控制的估计连续函数（3.1）统计学习9为了估计^Cn（·，·）\'s和^Un（·）\'s，我们从已知的终端条件W（X）开始，在时间上进行迭代后退，并在n=n时依次估计^Unand^cns- 1.0、假设我们估算了^Un+1，^UN-1和^Cn+1，^CN-1，我们首先解释^Unand^Cn的估算程序。这与fit任务相对应。在步骤n的后续向后递归中- 1我们还需要predicttask实际评估^Vn（Xn），这需要在新的（“样本外”）输入Xn，unw中评估^Cn（·），当然，这与培训输入（Xn，un）不一致，（xMcn、uMcn）。3.1. 估计容许控制集。为了估计时间步n处的容许控制集^Un（·），我们选择设计Dan：=（xin，uin，i=1，…，Ma），并模拟状态过程的轨迹（X（s））为∈[tn，tn+1）从Xi（tn）=xin开始，由控制单元驱动，以评估功能G（X（s））是∈[总氮，总氮+1）, 我们将时间间隔（tn，tn+1）离散为K finer子步骤，其中nk：=tn（k+1）- t确定离散轨迹xin=xin，xin。

18楼

何人来此

发表于 2022-6-14 15:36:34

. , xin（K-1），xinK。然后，我们记录（3.2）次获胜：=G（（xink）k∈{0，…，K-1}) > 0, i=1，Ma，其中，我们正式扩展（xink）k∈{0，…，K-1} 对于[tn，tn+1]上的分段常数轨迹。与标准RMC类似，我们现在选择一个近似空间Hanto，使用损失函数Lan估计分位数的概率^pn，并应用经验投影：（3.3）^pn：=arg minfan∈HanMaXi=1兰（fan，win；xin，uin）。Ha和La的具体示例见第4节。注意，近似值^pn和^qn必须在联合状态控制数据集{xin，uin，win}Mai=1上进行，并且依赖于选择的方法，并且产生随机估计量（^pn是一个随机变量）。利用^pn（x，u）的分布，我们可以得到一个更保守的估计量，它可以更好地保证（x，u）的最终可容许性。作为动机，回顾（2.11）中的NMC估计器pn（x，u）；对于相当大的Mb 20，pn（x，u）的分布近似高斯分布，平均pn（x，u）和方差pn（x，u）（1-pn（x，u））Mb。定义^p（ρ）n（x，u）：=“pn（x，u）+ξ（ρ）n（x，u）（3.4）：=“pn（x，u）+zρs”pn（x，u）（1- 其中zρ是ρ级的标准正态分位数，ξ（ρ）n（x，u）表示ρ级pnat的“安全”误差幅度。具有置信度ρ的相应近似容许集为（3.6）^U（ρ）n（x）：=^Uξ（ρ）n（x）=nu：^pn（x，U）+ξ（ρ）n（x，U）<po。更一般地，我们为站点x设置容许集∈ X至（3.7）^Uξn（X）={U：^pn（X，U）+ξn（X，U）<p}，其中ξn（X，U）确保了U在X的可容许性的“更强”保证。也可以确定估计员的裕度，ξn（X，U）=c（x，u）∈ X×W，当^pn（X，u）的采样分布未知时可以使用。相应的容许集（3.8）^Uξ=cn（x）={U：^pn（x，U）+c<p}。10 A.BALATA、M.LUDKOVSKI、A.MAHESHWARI和J。

[量化金融] 概率约束随机最优解的统计学习 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群