楼主: 可人4
1266 17

[量化金融] 概率约束随机最优解的统计学习 [推广有奖]

  • 0关注
  • 2粉丝

会员

学术权威

76%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
49.1643
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24465 点
帖子
4070
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
可人4 在职认证  发表于 2022-6-14 15:35:13 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Statistical Learning for Probability-Constrained Stochastic Optimal
  Control》
---
作者:
Alessandro Balata and Michael Ludkovski and Aditya Maheshwari and Jan
  Palczewski
---
最新提交年份:
2020
---
英文摘要:
  We investigate Monte Carlo based algorithms for solving stochastic control problems with probabilistic constraints. Our motivation comes from microgrid management, where the controller tries to optimally dispatch a diesel generator while maintaining low probability of blackouts. The key question we investigate are empirical simulation procedures for learning the admissible control set that is specified implicitly through a probability constraint on the system state. We propose a variety of relevant statistical tools including logistic regression, Gaussian process regression, quantile regression and support vector machines, which we then incorporate into an overall Regression Monte Carlo (RMC) framework for approximate dynamic programming. Our results indicate that using logistic or Gaussian process regression to estimate the admissibility probability outperforms the other options. Our algorithms offer an efficient and reliable extension of RMC to probability-constrained control. We illustrate our findings with two case studies for the microgrid problem.
---
中文摘要:
我们研究了基于蒙特卡罗的算法来解决具有概率约束的随机控制问题。我们的动机来自微电网管理,在微电网管理中,控制器试图以最佳方式调度柴油发电机,同时保持低停电概率。我们研究的关键问题是通过对系统状态的概率约束来学习隐含指定的容许控制集的经验模拟过程。我们提出了各种相关的统计工具,包括logistic回归、高斯过程回归、分位数回归和支持向量机,然后将其纳入近似动态规划的总体回归蒙特卡罗(RMC)框架。我们的结果表明,使用logistic或Gaussian过程回归估计可接受概率优于其他选项。我们的算法将RMC有效、可靠地推广到概率约束控制。我们用两个微电网问题的案例研究来说明我们的发现。
---
分类信息:

一级分类:Mathematics        数学
二级分类:Optimization and Control        优化与控制
分类描述:Operations research, linear programming, control theory, systems theory, optimal control, game theory
运筹学,线性规划,控制论,系统论,最优控制,博弈论
--
一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--

---
PDF下载:
--> Statistical_Learning_for_Probability-Constrained_Stochastic_Optimal_Control.pdf (2.94 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:统计学习 最优解 统计学 Optimization Quantitative

沙发
何人来此 在职认证  发表于 2022-6-14 15:35:25
概率约束随机最优控制的统计学习Alessandro BALATA*, MICHAEL LUDKOVSKI+、ADITYA MAHESHWARI+和JAN PALCZEWSKI*摘要我们研究了基于蒙特卡罗的局部概率约束随机控制问题的求解算法。我们的动机来自微电网管理,在微电网管理中,控制器试图优化调度柴油发电机,同时在每一步保持低停电概率。我们研究的关键问题是通过对系统状态的概率约束来学习状态相关容许控制集的经验模拟过程。我们提出了各种相关的统计工具,包括logistic回归、Gaussianprocess回归、分位数回归和支持向量机,然后将其纳入近似动态规划的总体回归Monte Carlo(RMC)框架。我们的结果表明,使用logistic或Gaussianprocess回归估计可接受概率优于其他方法。我们的算法有效且可靠地将RMC扩展到概率约束控制。我们用两个微电网问题的案例研究来说明我们的发现。关键词。机器学习、随机最优控制、概率约束、回归蒙特卡罗、microgridcontrolAMS主题分类。93E20、93E35、49L201。介绍具有概率约束的随机控制是对确定性限制的自然放松,这种限制往往会产生高成本,迫使人们避免极端事件的发生,无论其发生的可能性如何。相比之下,对于概率约束,在一定程度上可以容忍违反约束,从而在可接受性和成本之间实现更好的权衡。

藤椅
mingdashike22 在职认证  发表于 2022-6-14 15:35:28
我们参考【16】了解概率约束问题的概述,并在下面列出一些激励设置和参考:1。微电网管理:电力微电网是间歇性可再生发电机组、常规可调度柴油发电机(或电网互联)和蓄电池储能系统的集合。微电网为岛国模式中的社区供电,平衡流动的需求和供应。操作员通过优化蓄电池和备用可调度发电机的使用来实现这一点。由于完美的平衡非常昂贵,因此通常会考虑到小频率的停电,即需求超过供应的情况。混合整数线性规划通过使用更保守的凸约束进行近似来解决这个问题,见[23,34]。2、水电优化:在【2】中讨论了具有概率约束的水电站大坝控制。在该设置中,控制器观察降水的随机流入,以及电价的波动。他的目标是控制大坝的下游流量,以最大限度地提高电力销售的效益,同时确保大坝容量达到最低,并具有较高的*利兹大学数学学院,利兹伍德豪斯巷,利兹LS2 9JT,英国(亚历山德罗。balata@live.com; JPalczewski@leeds.ac.uk).+加利福尼亚大学统计与应用概率系,加利福尼亚州圣巴巴拉,邮编:93106(ludkovski@pstat.ucsb.edu; maditya0310@gmail.com).资助:迈克尔·卢德科夫斯基(MichaelLudkovski)和阿迪蒂亚·马赫什瓦里(AdityaMaheshwari)获得了国家科学基金会(NSF)DMS-1736439赠款的部分资助。AlessandroBalata得到了自然环境研究委员会博士培训合作伙伴利兹-约克大学的支持。通讯作者:Aditya Maheshwari2 A.BALATA、M.LUDKOVSKI、A.MAHESHWARI和J.PALCZEWSKIprobability。其他相关工作包括[3、32、37]。3.

板凳
大多数88 在职认证  发表于 2022-6-14 15:35:33
运动规划:确定机器人从一个位置到另一个位置的最小成本路径,同时避免与阻碍其路径的物体发生碰撞。环境中的随机性意味着机器人的运动只受到部分控制。保证障碍避免的鲁棒优化可能不可行,使概率约束成为可行的替代方案。文献[33]介绍了无人机的动态编程方法,并在文献[18]中解决了机器人的概率约束运动。捐款我们考虑在每个系统状态下通过期望约束表示的状态相关概率约束。我们的设置涉及一个连续状态、连续时间模型和一个离散的步进控制,其中约束是逐步施加的。因此,在每个步骤和每个状态下,控制器必须估计哪些控制是可接受的,然后对后者进行优化。虽然这种设置比全局概率约束简单,但比无约束控制要困难得多,因为动态编程需要一个二次数值过程来重复计算容许集。规范设置涉及通过It^o型随机微分方程描述的随机过程的有限水平控制。solutionparadigm涉及Bellman或动态规划方程(DPE),该方程适用于离散化时间步长,但适用于平滑的空间变量。在这种情况下,我们开发了使用回归蒙特卡罗(RMC)求解具有概率约束的随机最优控制问题的算法。

报纸
能者818 在职认证  发表于 2022-6-14 15:35:36
为了对RMC进行这一非常重要的扩展,我们研究了机器学习工具(包括支持向量机(SVM)、高斯过程(GP)回归、参数密度估计、逻辑回归和分位数回归)来统计估计作为系统状态函数的容许集。我们的算法并行地处理问题的两个部分,即约束估计和条件期望的近似,并且与天真的实现相比,模拟预算要低得多。在对能源电池管理的两个实际案例研究中提出的方法进行基准测试后,我们的主要结论是推荐logistic回归和GP平滑概率估计作为最佳程序。这些方法稳定、相对快速,允许进行各种进一步调整和加速。相比之下,尽管理论上有吸引力,分位数回归和支持向量机并不适合这项任务。在更高的层面上,我们的主要收获是,基于DPE的概率约束随机控制(SCPC)在前沿RMC方法的范围内。因此,现在在计算上解决这些问题是可行的,为新的SCPC模型和应用打开了大门。概率约束的相关模型。关于具有机会约束的单周期优化和全局多周期概率约束,已有大量文献。对于单周期公式,最常用的方法是将问题转换为一组场景下的线性或非线性程序【11、12、28、31】。特别是,下面使用的蒙特卡罗场景非常常见,但典型的设置涉及单个优化问题,而我们面临的是一系列由系统状态x和时间步长n索引的优化问题。

地板
kedemingshi 在职认证  发表于 2022-6-14 15:35:39
多周期环境下的全局概率约束是从多个角度解决的。动态规划方法【30】通过拉格朗日乘子将约束纳入目标函数。然后通过迭代求解最优控制和拉格朗日乘子来获得解。然而,由于对偶间隙,解是次优的。混合整数线性规划[1]的工作原理是将概率约束随机最优控制的统计学习3约束线性化,并要求离散状态空间。另一种选择【6,7】是将其转化为静态问题,然而,只有在对系统动力学和噪声分布进行严格假设的情况下,计算才可行。另一种选择是随机可行性方法[2,15],该方法侧重于最大化被接受的概率,这是根据每一时间步的利益目标和满足约束来确定的。与以上相比,我们的多周期优化模型在每个时间步应用一步概率约束,这在文献中是新的。据我们所知,最近在[19]中研究了最接近的设置,以计算风险根据其未来价值相对于一组随机基准确定的投资组合的对冲价格。除了局部概率约束外,作者还提出了多周期约束的动态规划方程。然而,他们的解决方案是由非常特殊的损失函数和状态过程驱动的。相反,我们使用统计学习方法开发了通用数字模式。2、问题表述。我们研究具有局部隐式约束的有限水平[0,T]上随机控制问题的数值解,特别是我们处理通过受控状态上的概率条件定义的约束。

7
kedemingshi 在职认证  发表于 2022-6-14 15:35:47
Let(X(t))t≥0∈ 十、 Rdbe是一个适用于给定过滤(Ft)的连续时间控制马尔可夫过程。控制是一个(Ft)自适应过程(u(t))t≥0,取W值 R、 我们进一步假设控制决策是在离散点{t,t,…,tN=t}做出的;在时间步长之间,u(t)的值保持不变。因此,控制过程是分段常数和c\'adl\'ag(右连续,左极限),并将交替表示为u(t)=PN-1n=0un[tn,tn+1)(t)。就控制而言,我们的设置基本上是离散时间的,但我们引入了连续时间系统状态,因为动作的容许性取决于控制点之间X(t)的轨迹。在我们的激励示例中,系统的动力学由随机微分方程描述:dX(t)=b(t,X(t),u(t))dt+σ(t,X(t),u(t))dB(t),其中(b(t))是m-产生过滤(Ft)和b的维布朗运动:R+×X×W→ Rd和σ:R+×X×W→ Rd×mare是可测量的函数,因此对于下面定义的容许控制存在唯一(弱)解,并取X值。为了便于记法,我们将写X(tn),n=0,N、 如果上下文中清楚显示了控件(u(t)),则不会显式指示对控件的依赖性。通过(2.1)Un:N(Xn)=N(uk)Nk=N:Pk(Xk,uk)在反馈表中确定可接受性∈ Ak公司k∈ {n,…,n- 1} o,对于确定性函数Pk:X×W→ R和给定子集Ak R、 对于本文的其余部分,weassume Pn(Xn,un)和Anto be的形式为(2.2)Pn(Xn,un)≡ pn(Xn,un):=PGn((X(s))s∈[总氮,总氮+1))>0Xn,un和An:=[0,p),其中GNI是在时间间隔s内(X(s))轨迹上定义的函数∈ [总氮,总氮+1]。

8
何人来此 在职认证  发表于 2022-6-14 15:35:50
换言之,我们以控制集为目标,使得X的“失效”函数Gn(·)大于零的条件概率以阈值p为界,即(2.3)Un(Xn):=nu∈ W:pn(Xn,un)<po。4 A.BALATA、M.LUDKOVSKI、A.MAHESHWARI和J.Palczewskit方程(2.3)中的阈值p被解释为放松强约束Gn(·)≤ 0在随机环境中可能不合适。p的典型值通常较小(p≈ 0.05).我们假设在任何状态和任何时间至少存在一个容许控制,henceUn:Nis由Uk(x)=Uk:k(x),k=n,N- 1、可容许控制的非空集满足决策时代的约束条件TK Xk=x。控制器必须优化并评估拟定行动的可行性,性能标准的形式为(2.4)Vn(Xn)=inf(us)Ns=n∈联合国:N(Xn)nEhN-1Xk=nZtk+1tkπs(X(s),英国)ds+W(X(tN))Xnio,其中W(·)表示终端罚款,πt(·,·)表示运行成本。我们在步骤n中根据相应的动态规划方程重写(2.4):Vn(Xn)=infu∈Un(Xn)nCn(Xn,u)o,其中Cn(Xn,u)=EZtn+1tnπs(X(s),u)ds+Vn+1(X(tn+1))Xn,u.(2.5)Cn(Xn,u)以上是连续值,即使用控制u控制[tn,tn+1]得到的奖励加上对未来奖励的预期。此外,鉴于状态Xn,我们说*∈ 如果Vn(Xn)=Cn(Xn,u,则Un(Xn)是最优控制*).

9
能者818 在职认证  发表于 2022-6-14 15:35:53
由于容许集Un(Xn)既与时间相关又与状态相关,我们需要在每个时间步估计连续值Cn(·,·)和容许控制集Un(·)。这是与机会约束优化中的标准场景方法[28]的主要区别,其中只有一个问题需要在固定的U上进行优化,但没有进一步的x和n索引。后者需要将插值和优化结合起来作为解决方案的一部分。可采性的替代表述。我们用Gn(Xn,un)表示函数Gn(·)的正则条件分布[20],给定(Xn,un):(2.6)Gn(Xn,un):=LGn((X(s))s∈[总氮,总氮+1))Xn,un,其中L(·| Xn,un)表示有条件定律。写入P时Gn(Xn,un)>z或Eg级Gn(Xn,un)我们指的是关于这个条件分布的概率或期望。我们可以通过相应的(1)重写方程(2.2-p) Gn(Xn,un)的分位数q(Xn,un):(2.7)qn(Xn,un):(Xn,un)7→ arg infznPGn(Xn,un)>z≤ 采购订单。然后使用(2.8)Un(Xn):={u:pn(Xn,u)<p}={u:qn(Xn,u)≤ 0},我们可以设置Pn:=qnand▄A=(-∞, (2.1)中的0]。我们将利用这种等价性,为容许集提出基于分位数的方法(第4节)。备注2.1。假设一维控制un∈ W R、 概率pn(Xn,un)在un中单调递减,估计容许集un(Xn)等价于估计最小容许控制umin(Xn):=infu∈Wnu:pn(Xn,u)<po。相应的容许集为Un(Xn)={u∈ W:u≥ Umin(Xn)}。概率约束随机最优控制的统计学习5备注2.2。更通用的版本是formnu的隐式约束∈ W:EhgGn(Xn,u)我≤ po,对于函数g:R→ R

10
mingdashike22 在职认证  发表于 2022-6-14 15:35:56
更抽象地说,我们可以在(2.1)中想到一个通用的隐式映射Pk(·,·),该映射定义了Un:N(Xn),其思想是反转该映射在数字上是非平凡的(即Pkis expensiveto evaluate),因此先验地不清楚哪些控件满足约束,哪些不满足约束。备注2.3。方程(2.8)描述了给定状态x的容许控制u。“对偶”观点是考虑状态集Xan(u) 允许给定控制u的X:(2.9)Xan(u):=nx∈ X:pn(X,u)<po。通常,X的基数是有限的,而控制空间W是有限的,因此,在∈ W比枚举不可数集合族x 7要容易得多→ 式(2.3)中的Un(x)。此外,如果u 7→ pn(x,u)对于所有x都在减小∈ X,那么我们得到一个有序的Xan(u) Xan(u)表示u≤ u、 后一种嵌套特性对应于根据控件相对于Gn的“风险性”对控件进行排序,因此最安全的控件将具有非常大的Xan(u)(可能全部为X),而最安全的控件将具有非常小的可接受域。2.1. 回归蒙特卡罗。在本文中,我们重点讨论基于仿真的技术来解决(2.4)。总体框架基于通过n=n的反向归纳法求解方程(2.5)-1,N- 2.用估计值^Vn(x)替换真实Vn(x)。由于条件期望和可接受性约束都不是明确可用的,因此这些术语也必须用其估计对应项替换。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-17 06:53