楼主: kedemingshi
925 20

[量化金融] 部分观测下的风险敏感平均场型控制 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
89.2735
学术水平
0 点
热心指数
8 点
信用等级
0 点
经验
24665 点
帖子
4127
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
kedemingshi 在职认证  发表于 2022-5-7 04:20:55 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Risk-Sensitive Mean-Field Type Control under Partial Observation》
---
作者:
Boualem Djehiche and Hamidou Tembine
---
最新提交年份:
2014
---
英文摘要:
  We establish a stochastic maximum principle (SMP) for control problems of partially observed diffusions of mean-field type with risk-sensitive performance functionals.
---
中文摘要:
我们建立了一个随机最大值原理(SMP)来解决具有风险敏感性能泛函的平均场型部分观测扩散的控制问题。
---
分类信息:

一级分类:Mathematics        数学
二级分类:Optimization and Control        优化与控制
分类描述:Operations research, linear programming, control theory, systems theory, optimal control, game theory
运筹学,线性规划,控制论,系统论,最优控制,博弈论
--
一级分类:Computer Science        计算机科学
二级分类:Systems and Control        系统与控制
分类描述:cs.SY is an alias for eess.SY. This section includes theoretical and experimental research covering all facets of automatic control systems. The section is focused on methods of control system analysis and design using tools of modeling, simulation and optimization. Specific areas of research include nonlinear, distributed, adaptive, stochastic and robust control in addition to hybrid and discrete event systems. Application areas include automotive and aerospace control systems, network control, biological systems, multiagent and cooperative control, robotics, reinforcement learning, sensor networks, control of cyber-physical and energy-related systems, and control of computing systems.
cs.sy是eess.sy的别名。本部分包括理论和实验研究,涵盖了自动控制系统的各个方面。本节主要介绍利用建模、仿真和优化工具进行控制系统分析和设计的方法。具体研究领域包括非线性、分布式、自适应、随机和鲁棒控制,以及混合和离散事件系统。应用领域包括汽车和航空航天控制系统、网络控制、生物系统、多智能体和协作控制、机器人学、强化学习、传感器网络、信息物理和能源相关系统的控制以及计算系统的控制。
--
一级分类:Mathematics        数学
二级分类:Probability        概率
分类描述:Theory and applications of probability and stochastic processes: e.g. central limit theorems, large deviations, stochastic differential equations, models from statistical mechanics, queuing theory
概率论与随机过程的理论与应用:例如中心极限定理,大偏差,随机微分方程,统计力学模型,排队论
--
一级分类:Quantitative Finance        数量金融学
二级分类:Mathematical Finance        数学金融学
分类描述:Mathematical and analytical methods of finance, including stochastic, probabilistic and functional analysis, algebraic, geometric and other methods
金融的数学和分析方法,包括随机、概率和泛函分析、代数、几何和其他方法
--

---
PDF下载:
--> Risk-Sensitive_Mean-Field_Type_Control_under_Partial_Observation.pdf (174.17 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Optimization Mathematical Differential Quantitative Experimental

沙发
何人来此 在职认证  发表于 2022-5-7 04:21:00
部分观测下的风险敏感平均场型控制*Hamidou Tembine+2018年7月17日摘要我们建立了一个随机最大值原理(SMP),用于控制具有风险敏感性能函数的部分观测平均场型差异。AMS科目分类。93E20、60H30、60H10、91B28。关键词:时间不一致随机控制、最大值原理、平均场、风险敏感控制、部分观测。1.在平均场类型差异的最优控制问题中,性能函数、漂移和扩散系数不仅取决于状态和控制,还取决于状态控制对的概率分布。在贝尔曼原理不再有效的意义上,平均场耦合使控制问题时间不一致,这促使使用随机最大值(SMP)方法来解决此类最优控制问题,而不是尝试扩展动态规划原理(DPP)。这类控制问题已经被许多作者研究过,包括[1,2,5,7,15,20]。这些文件中考虑的绩效函数属于风险中性类型,即运行成本/利润项是阶段加性支付函数的预期值。然而,并非所有的行为都可以通过风险中性的绩效来捕捉。捕捉风险规避和风险寻求行为的一种方法是在预测之前将性能函数指数化(见[17])。我们了解到的第一篇论文是[28],它涉及平均场环境下的风险敏感最优控制。

藤椅
kedemingshi 在职认证  发表于 2022-5-7 04:21:03
其中,作者利用Ha milton Jacobi Bellman(HJB)方程组和*KTH皇家理工学院,电子邮件:boualem@math.kth.se+纽约大学,电子邮件:tembine@nyu.eduFokker-普朗克方程。这个匹配参数冻结了动力学中的平均场耦合,从而为值函数生成了一个标准的风险敏感HJB方程。然后,通过满足最佳状态边际定律的福克-普朗克方程,检索平均场耦合。在最近的一篇论文[11]中,作者为平均场型控制建立了风险敏感的SMP。风险敏感控制问题首先是根据强化状态过程和终端支付问题重新表述的。然后,通过应用([5]定理2.1.)的SMP,得到了一个中间随机ma-ximump原理对于无运行成本的loss函数,但具有更高维的增广状态和状态的完全观测。然后,使用[12]中导出的对数变换,将中间一阶和二阶伴随过程转换为更简单的形式。许多作者(包括非详尽的参考文献[13,10,19,4,14,3,30,31,21,8,9,27,16])都使用DPP和SMP方法研究了部分观测差异(无平均场耦合)的最优控制。[27]推导了风险中性绩效函数下部分观察到的差异最优控制的最一般模型的SMP。最近,王等人。

板凳
可人4 在职认证  发表于 2022-5-7 04:21:06
[29]对SMP进行了扩展,以对平均场型风险中性绩效函数的差异进行部分可观察的最佳控制。本文的目的是在部分观测下,建立一类风险敏感的平均场型控制问题的随机极大值原理。根据上述部分观测下最优控制的论文,特别是[27],我们的策略是将部分可观测控制问题转化为完全可观测控制问题,然后应用[11]中建议的方法,推导出风险敏感SMP的合适模型。据我们所知,在不经过DPP的情况下,部分观测下的风险敏感最大原则,尤其是对于平均场类型的控制,尚未在早期工作中建立。论文的结构如下。在第2节中,我们给出了模型,并陈述了构成主要结果的部分可观测风险敏感SMP,其证明在第3节中给出。最后,在第4节中,我们将风险敏感的SMP应用于部分观测下的线性REXP一元二次设置。为了简化演示,我们只考虑一维情况。到目前为止,对多维案例的扩展非常简单。此外,我们还考虑了控制只输入漂移系数的扩散模型,这导致SMP只有一对伴随过程。一般的彭型SMP可以从[27]和[11]中得出。2.问题的陈述:T>0是一个固定的时间范围,并且(Ohm, F、 lF,lP)是一个被定义为两个独立的标准一维布朗运动W={Ws}s的独立的过滤概率空间≥0和Y={Ys}s≥0.让W和Y分别完成lP的自然过滤。

报纸
kedemingshi 在职认证  发表于 2022-5-7 04:21:10
设置lF:={Fs,0≤ s≤ T},式中,Ft=FWt∨ FYt。我们考虑具有部分观测的平均场型随机控制系统,该系统具有以下特征:(i)容许控制u是一个线性适应过程,其值位于lR和满足E[RT|u(t)| dt]的非空子集(不一定是凸的)u中∞. 我们用U表示所有可容许控制的集合。控制U称为部分可观测。(ii)给定一个控制过程u∈ U、 受控状态过程xu(·)只能通过Y部分观测,我们称之为观测过程,通过动力学(dYt=β(t,xu(t))dt+dfWt,Y=0,(1)on(Ohm, F、 其中β(t,x):[0,t]×lR-→ lR是一个Borel可测函数。函数β的一个更一般的模型是让它依赖于控制u,并且是平均场类型。为了使演示更简单,我们在本文中跳过这些案例。

地板
kedemingshi 在职认证  发表于 2022-5-7 04:21:13
但是,主要结果确实扩展到了这种情况。(iii)在概率测度lPu下,状态过程xu(·)满足以下平均场类型的SDEdxu(t)=b(t,xu(t),Eu[xu(t)],u(t))dt+σ(t,xu(t),Eu[xu(t)]dWt+α(t,xu(t),Eu[xu(t)])dfWt,xu(0)=x,(2)其中,W和fw是两个独立的布朗运动,xis假设为实常数,并注意到关于概率测度lPu,b(t,x,m,u)的期望值:[0,t]×lR×lR×u-→ 和α(t,x,m),σ(t,x,m):[0,t]×lR×lR-→ lR。目的是描述可容许控制的特征,以最小化与给定byJθ(u(·))=Eu的(2)相关的风险敏感成本函数经验θZTf(t,xu(t),Eu[xu(t)],u(t))dt+h(xu(t),Eu[xu(t)]), (3) 式中,θ是风险敏感性指数,f(t,x,m,u):[0,t]×lR×lR×u-→ lR,h(x,m):lR×lR-→ lR,t∈ [0,T],x∈ lR,m∈ lR,u∈ U.任何U(·)∈ 满足θ(`U(·))=infu(·)∈UJθ(u(·))(4)称为部分观测下的风险敏感最优控制。设ψT=RTf(T,x(T),Eu[x(T)],u(T))dt+h(x(T),Eu[x(T)],并考虑由ψθ决定的支付函数:=θlog EueθψT。当风险敏感指数θ很小时,损失函数ψθ可展开为Eu[ψT]+θvaru(ψT)+O(θ),其中,varu(ψT)表示ψTw的方差。r、 t.lPu。如果θ<0,作为风险度量的ψT的方差会提高性能ψθ,在这种情况下,优化器被称为RiskSeek。但是,当θ>0时,ψTworsens的方差表示性能ψθ,在这种情况下,优化者被称为风险规避者。风险中性损失函数Eu[ψT]可以被视为风险敏感函数ψθ的极限,当θ→ 0.介绍上定义的密度过程(Ohm, F、 lF,lP)乘以ρu(t):=expZtβ(s,许(s))dYs-Zt |β(s,许(s))|ds, (5) 求解线性SDEdρu(t)=ρu(t)β(t,xu(t))dYt,ρu(0)=1。

7
kedemingshi 在职认证  发表于 2022-5-7 04:21:19
(6) 假设函数β有界(见下面的假设1),ρ是一个一致可积函数,对于每k≥ 2,E[sup0≤T≤T(ρut)k]≤ C、 (7)式中,C是一个常数,仅取决于β、p和T的界。根据Girsanov的理论,dlPu=ρu(T)dlP。此外,lP和lPuare是等价的度量。lP和lP之间的这种关系使我们能够将(1)与(2)合并,得到受控态过程(ρu,xu)作为弱解(Ohm, F、 lF,lP)的以下动态:dρu(t)=ρu(t)β(t,xu(t))dYt,dxu(t)={b(t,xu(t),E[ρu(t)xu(t)],u(t))- α(t,xu(t),E[ρu(t)xu(t)]β(t,xu(t))}dt+σ(t,xu(t),E[ρu(t)xu(t)]dWt+α(t,xu(t),E[ρu(t)xu(t)]dYt,ρu(0)=1,xu(0)=x.(8)此外,相关的风险敏感成本函数(3)变为θ(u(·))=Ehρu(t)EθRTf(t,xu(t),E[RTf(t,xu(t),xu(t),E[ρu(t),xu(t)xu(t)],我们已经把部分可观测控制问题转化为状态过程的完全可观测控制问题(ρu,xu),例如,它可以归结为描述控制的特征∈ 满足(4)的U,其中代价函数Jθ由(9)给出,服从(8)的动力学(ρU,xu)解。本文的主要结果是关于问题(4)(服从(8)-(9)的必要最优性条件的随机极大值原理(SMP)。我们将做出以下假设。假设1。函数b,σ,α,β,f,h对于(x,m)是连续两次微分的。

8
kedemingshi 在职认证  发表于 2022-5-7 04:21:21
此外,这些函数及其关于(x,m)的一阶导数在(x,m,u)中连续且有界。为了减少演示的技术性,我们采用了这些假设,尽管这些假设是限制性的,并且可能会变得更弱。在这些假设下,根据Girsanov定理和[18]命题1.2。,给每个人∈ U、 SDE(8)允许一个唯一的弱解(ρU,xu)。我们现在陈述一个SMP来描述最优控制¨u(·)∈ U最小化(9),服从(8)。设(ρ,x):=(ρu,x’u)表示相应的统计过程,即(8)的解。我们介绍以下符号。X:=ρx,\'X:=ρx, φ(X)=ρX,φ(\'X)=ρX,X=\'X:=十、, 英国电信:=YtWt,c(t,x,m,u):=b(t,x,m,u)- α(t,x,m)β(t,x),F(t,x,m,u):=c(t,x,m,u), G(t,X,m):=ρβ(t,x)0α(t,x,m)σ(t,x,m),(10) 我们将风险中性定义如下。对于(p,q)∈ lR×lR2×2,H(t,X,m,p,q,u):=hF(t,X,m,u),pi+tr(G)*(t,X,m)q)- f(t,x,m,u),(11)式中,\'*′表示矩阵或向量的换位运算。我们还引入了风险敏感哈密顿量:对于θ∈ lR和(p,q,l) ∈ lR×lR2×2×lR,Hθ(t,X,m,u,p,q,l) := hF(t,X,m,u),pi- f(t,x,m,u)+tr(G)*(t,X,m)(q+θ)lP*)).(12) 我们有H=H设置l :=ll, p:=聚丙烯, 问:=qqqq, (13) 哈密顿量n(12)readsHθ(t,X,m,u,p,q,l) := c(t,x,m,u)p- f(t,x,m,u)+ρβ(t,x)(q+θ)lp) +α(t,x,m)(q+θ)lp) +σ(t,x,m)(q+θ)lp) 。(14) 在(14)中设置θ=0,我们得到了哈密顿量(11)的显式形式:H(t,X,m,u,p,q):=c(t,X,m,u)p- f(t,x,m,u)+ρβ(t,x)q+α(t,x,m)q+σ(t,x,m)q.(15)用明显的符号表示函数b,α,β,σ,f,h,w.r.t的导数。

9
可人4 在职认证  发表于 2022-5-7 04:21:26
对于x和m,我们进一步设置Hθx(t,x,m,u,p,q):=cx(t,x,m,u)p- fx(t,x,m,u)+ρβx(t,x)(q+θ)lp) +αx(t,x,m)(q+θ)lp) +σx(t,x,m)(q+θ)lp) ,Hθm(t,X,m,u,p,q):=cm(t,X,m,u)p- fm(t,x,m,u)+αm(t,x,m)(q+θ)lp) +σm(t,x,m)(q+θ)lp) ,Hθρ(t,X,m,u,p,q)=β(t,X)(q+θ)lp) 。(16) 有了这个符号,系统(8)可以改写成以下简洁的形式dX(t)=F(t,X(t),E[φ(X(t))],u(t))dt+G(t,X(t),E[φ(X(t))])dBt,X(0)=X,(17)我们定义了与随机变量X相关的风险中性哈密顿量,例如tφ(X)∈L(Ohm, F、 lP)如下(明显滥用符号):For(p,q)∈ lR×lR2×2,H(t,X,p,q,u):=hF(t,X,E[φ(X)],u),pi- f(t,x,E[φ(x)],u)+tr(G)*(t,X,E[φ(X)])q),(18)我们还引入了风险敏感哈密顿量:对于θ∈ lR和(p,q,l) ∈ lR×lR2×2×lR,Hθ(t,ρ,x,u,p,q,l) = Hθ(t,X,u,p,q,l) := hF(t,X,E[φ(X)],u),π- f(t,x,E[φ(x)],u)+tr(G)*(t,X,E[φ(X)])(q+θlP*)).(19) 对于φ∈ {b,c,σ,α,β,f,h}和u∈ U、 我们介绍了随机过程φx(t):=φx(t,\'x(t),E[\'ρ(t)\'x(t)],\'U(t)),φm(t):=φm(t,\'x(t),E[\'ρ(t)\'x(t)],\'U(t))。(20) 设ψθT:=?(T)expθZTf(t,\'x(t),E[\'ρ(t)\'x(t)],\'u(t))dt+h(\'x(t),E[\'ρ(t)\'x(t)]). (21)我们为我们的控制问题引入了风险敏感SMP中涉及的伴随方程。d^p(t)=-Hθρ(t)+x(t)vθ(t)E[vθ(t)Hθm(t)]Hθx(t)+ρ(t)vθ(t)E[vθ(t)Hθm(t)]!dt+^q(t)(-θl(t) dt+dBt),dvθ(t)=θvθ(t)hl(t) ,dBti,^p(t)=-(θ′ρ(T))-1hx(T)-\'x(T)\'ρ(T)ψθTE[ψθThm(T)],vθ(T)=ψθT,(22),其中,鉴于(16)和(20),对于k=ρ,x,m,Hθk(T):=hFk(T,\'x(T),E[φ(\'x(T)),\'u(T)),^p(T)i- fk(t,\'x(t),E[φ(\'x(t)),\'u(t))+tr(G)*k(t,\'X(t),E[φ(\'X(t)))(^q(t)+θl^p*(t) )。(23)我们注意到过程(^p,^q,l) 可能取决于灵敏度指数θ。

10
何人来此 在职认证  发表于 2022-5-7 04:21:28
为了简化符号,我们省略了显式表示这种依赖关系。下面,我们将证明,在假设1下,(2)允许一个唯一的lF适应解(^p,^q,vθ,l) 好吧∈[0,T]| p(T)|+支持∈[0,T]| vθ(T)|+ZT|^q(t)|+|l(t)|dt#<∞. (24)此外,引理1。这一过程取决于(Ohm, F、 lF,lP)byLθt:=vθ(t)vθ(0)=expZtθhl(s) ,dBsi-θZt|l(s) |ds, 0≤ T≤ T(25)是一致可积的lF鞅。过程Lθ通过设置Lθt:=dlPθdlP,定义了一个与lP等价的新概率度量lPθ根据Girsanov定理,过程Bθt:=Bt- θRtl(s) ds,0≤ T≤ T是lPθ-布朗运动。以下定理是本文的主要结果。定理1。(风险敏感最大值原理)假设1 HO l d。如果(ρ(·),(x(·),(u(·))是风险敏感控制问题(4)-(8)的最优解,那么有两对lF适应过程(vθ,l) 满足(22)-(24)的(^p,^q),使得eθ[Hθ(t,\'ρ(t),\'x(t),^p(t),^q(t),l(t) ,u)- Hθ(t,\'ρ(t),\'x(t),^p(t),^q(t),l(t) ,u(t))|FYt]≤ 0,(26)代表所有美国∈ U、 几乎每个t和lPθ-几乎可以肯定。这里,Eθ[·]表示期望w.r.t.lPθ。备注1。定理1中假设1中引入的关于相关系数及其导数的有界假设,保证了正反向SDE系统(8)-(22)的可解性。事实上,定理1适用于我们所能解的正倒向随机微分方程组(8)和(22)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-27 04:35