楼主: kedemingshi
2885 57

[量化金融] 随机最优控制问题的反向仿真方法 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-6-11 11:01:00
向后更新3.1回归给定时间步t+1处值函数的数值估计,用VEt+1(·)表示,构造随机样本mt+1:=nVEt+1X(m)t+1, m=1,2,Mo.进一步构造状态进程的动作后值的随机样本,如下所示:XMt+:=nX(m)t+:=KX(m)t,a(m)t, m=1,2,Mo.(9)分别以YMt+1和XMt+作为响应变量和回归变量的样本,进行某种非参数回归,得到Ct(·)的回归估计CEt(·)。3.2优化时间步t的值函数估计值由vet(x)=supa给出∈在(x)hft(x,a)+欧洲中部K(x,a)i、 (10)此后,我们将上述算法称为前向模拟和后向更新(FSBU)算法。备注1(VEt(·)和CEt(·)的随机性)。VEt(·)和CEt(·)中的上标E强调,它们分别是真值函数和延拓函数的数值估计。由于采用了某种回归技术来获得此类数值估计,因此它们基本上依赖于随机样本YMt+1和XMt+,因此依赖于之前从步骤T生成的所有随机样本- 1向下至步骤t,即,对于n=t,…,YMn+1和XMn+,T- 为了简洁起见,这种依赖性在符号中被抑制了,但读者应该记住,VEt(·)和CEt(·)都是随机函数。2.2.2挑战在实施之前引入的FSBU算法以解决离散控制问题时存在一些挑战。下面,我们从三个方面对这些挑战做出一些评论。(一) 控制随机化的限制,因为DM的最佳行动在一开始是不可处理的,但应在算法的后向更新阶段解决,步骤1.1随机生成一个可行的行动,称为控制随机化方法;见Kharroubi等人(2014)。

12
大多数88 在职认证  发表于 2022-6-11 11:01:03
对于某些选定的行动aM0:n,回归估计CEt(·)的准确性只能在结果采样点XMt+(例如D)的支持下保证,这可能小于其他行动的采样点。然而,为了解决步骤2.2中的优化问题(见等式(10)),需要了解所有可行行动的行动后值Xt+=K(Xt,at)范围内的CEt(·),因为在评估VEt(x)时,应遍历行动的所有可能值,并将其作为函数CEt(K(x,a))的输入;有关图形说明,请参见图2。作为一种折衷办法,可以使用某些外推方法来推断D区以外的CEt(·)值,这会导致严重错误,很难证明其合法性。(二) 前向模拟成本值得注意的是,在上述FSBU算法的时间步长t处,模拟了与时间步长t+1处的样本无关的状态过程的新随机样本;有关图形说明,请参见图3。这是应用非参数回归理论建立收敛结果所必需的,例如,参见(Zanger,2013,第511页)的第2.3节。相反,使用单个样本会导致样本偏差,因为在时间步长t+1 VEt+1(·)处获得的值函数的数值估计与XMt+相关;例如,见Choi et al.(2018)第3.1节和前面的备注1。上述LSMC算法的正向仿真过程的总时间开销为O(T)。模拟状态过程的整个路径可能非常耗时,尤其是当使用一些近似方案来模拟一般的随机微分方程时。

13
大多数88 在职认证  发表于 2022-6-11 11:01:06
除了时间成本问题外,单个模拟中的内存成本为O(dT),T和d分别是时间步数和状态过程的维数,这对于大型T是相当大的。(三) 回归技术的选择尽管有大量关于非参数回归的文献,但第2.1步中非参数回归方法的选择应谨慎。在上述FSBU算法中,回归问题中的样本量对应于模拟路径的数量,并且在文献中通常建议选择大于十万的样本量,这使得大多数回归方法的计算受到限制。具体而言,局部方法(如局部多项式回归)显然不是明智的选择,因为它们需要在每个采样点运行回归。值得指出的是,即使计算样本中的一个点,也相当耗时,因为它涉及局部优化问题(请参见等式(10))。此外,高内存开销也给大多数非参数回归方法带来了负担。例如,核回归和等温线假设在每个时间间隔[t,t+1]上模拟一条路径的时间成本为C。那么,模拟整个路径到时间步长n的时间成本约为n×C,并且整个LSMC算法中的正向模拟的时间成本约为C(1+2+·····+t)=t(t+1)C/2。作者的经验是,在MacBook Pro(2.8 GHz Intel Core i7)上使用R软件包“msde”,在10年内对Heston模型的10条路径进行一次模拟需要365秒。0 1t+1t时间步长xm1:t+1XM1:t图3:用于说明状态过程正向模拟的图表。实线对应于LSMCalgorithm时间步长t处的状态过程模拟样本。

14
何人来此 在职认证  发表于 2022-6-11 11:01:09
虚线对应于时间步t处状态过程的另一个独立模拟样本- 1.回归方法需要存储所有样本点,以便在某些支持下恢复回归函数的函数形式,因此内存开销非常大。几乎所有非参数回归技术都涉及计算密集型交叉验证程序,以确定调整参数(例如,局部回归方法中的带宽和全局回归方法中的基函数数),从而避免过度拟合或不足拟合,这一事实加剧了上述两个棘手的问题。2.2.3动机鉴于前面的项目(I)–(III),本文的主旨是探索以下问题的可能答案:(Q1)如何避免理论上不可靠的推断?(Q2)在LSMC算法中是否可以绕过正向模拟?(Q3)是否有对调整参数不敏感的回归方法?关于(Q1),在后半部分,我们将构造一个辅助随机控制问题,其中伴随的状态过程只取有界集中的值。这种构造将回归函数转移到样本分布区域之外。作为对(Q2)的回应,我们将建议直接模拟状态过程的动作后值。对于(Q3),我们将引入一种保形筛估计方法来推断连续函数。

15
能者818 在职认证  发表于 2022-6-11 11:01:12
结果筛估计一方面对调整参数不敏感,另一方面保留了延拓函数的某些形状特性。3主要结果3.1定位和误差范围正如上一节中“控制随机化的限制”一项所述,有必要了解状态过程的整个作用后值范围内的连续函数值,该值比回归样本使用的集合更宽。值得注意的是,如果状态过程在无界集中取值,则操作后值的范围是无界的,这在许多金融应用程序中尤其如此。因此,在样本支持度之外推断连续函数通常是不可避免的,外推回归估计所产生的误差很难量化。本小节的目的是找到一种方法,以避免在实施LSMC算法时出现不合理的外推。关键思想是首先构造一个辅助随机最优控制问题,其中伴随的状态过程只取有界集中的值,然后显示辅助问题和原始问题之间的差异在某种意义上是边际的。为了形式化这个想法,我们让XRB成为集合X的一个有界子集,其中下标表示某个截断参数。进一步表示XR(分别为。XR)作为XR的内部(对应边界)。给定初始状态X∈XR,定义以下停止时间:τR:=输入∈ TXt公司/∈XRo,(11)符合约定:τR=∞ 如果Xt∈XRF适用于所有t∈ T设cl(XR)是集合Xrand的闭包,并假设它是严格凸的。我们递归定义了一个辅助状态过程XR:=XRt公司t型∈助教如下:XR=X,XRt=XtI{τR>t}+Q(XτR∧t) I{τR≤t} ,对于t=1,2,T、 (12)其中Q(x)=arg infy∈col(XR)ky- xk,k·k表示欧几里德`-范数。

16
nandehutu2022 在职认证  发表于 2022-6-11 11:01:15
由于cl(XR)是紧的严格凸集,Q(x)是唯一的并且位于边界集上XRF或x/∈XR。下面,我们对上述等式(12)中定义的辅助状态过程给出一些解释。原始状态过程X与辅助状态过程xrun一致,直到停止时间τR。一旦原始状态过程通过截断域的内部,辅助状态过程在边界集中的某个点冻结XRHEREAFTER之后。原始和辅助状态过程的演化机制如图4所示。下面的命题给出了XR的过渡方程。提案1。由等式(12)定义的辅助状态过程XRD允许在每个时间点上使用以下传递方程:XR=XandXRt+1=XRtI{XRt∈XR}+~HKXRt,at, εt+1I{XRt∈XR},对于t=0,1,T-1,(13)式中,H(k,e)=Q(H(k,e)),如果H(k,e)/∈XR,H(k,e),否则,(14)和k(·,·)是与primalTimeXR的作用前和作用后值相关的过渡方程。τR- 1τRτR+1。XQ(Xt)图4:X和XR进化机制的图示。值得注意的是,X可能在两个离散时间点t和t+1之间连续演化。停止时间τr对应于第一个时间点,在该时间点上,XT位于所有离散时间点{0,1,…,T}之外。这些圆对应于XR的路径。等式(5)中规定的状态过程。为了表述清晰,上述主张的证明被归入附录B.1。递减公式。

17
能者818 在职认证  发表于 2022-6-11 11:01:19
(13) 从本质上讲,XRis本身就是一个马尔可夫链,因此,它是后继中定义的辅助随机控制模型的唯一状态过程。让ARB确定辅助状态过程的所有容许动作集,定义为:AR:=a={at}t∈Tatis英尺- 可测量,在∈ 在XRt公司, 对于t∈ T.相对于原始随机最优控制问题(2),我们考虑以下辅助问题:~V(X)=supa∈是“T”-1Xt=0хtftXRt,at+ ^1TfTXRT公司#, (15) 其中XR=XRt公司t型∈对于任何给定的动作a,由公式(13)递归定义。因为状态过程XRF一旦到达边界集就会冻结XR,式(15)中的值函数由▄Vt(x)=T给出-1Xn=tДn-tfn公司x;一*n(x)+ ^1T-tfT(x),用于x∈ XR,t∈ T,(16)带a*n(x)∈ arg最大值∈An(x)fn(x;a)。在截断域的内部,可以用与V(·)类似的向后递归方法来求解上述值函数V(·),即,VT(x)=英尺(x),~VT(x)=supa∈在(x)hft(x,a)+ИCt时K(x,a)i、 对于x∈XR,t=0,1,T-1,(17)式中,根据式(6)定义▄Ct(·),H(·,·)替换为▄H(·,·)。值得注意的是,在评估Ct时K(x,a), 关于▄Vt+1(·)的知识超过XRRight可能需要,在这种情况下,将调用公式(16)。我们对方程(17)和与主要随机控制模型相关的Bellman方程(8)进行了一些比较。首先,在这两个方程中,(·)处的状态约束、行动前后的传递方程K(·,·)和奖励函数完全相同。

18
mingdashike22 在职认证  发表于 2022-6-11 11:01:22
其次,价值函数Vt(·)仅定义在有界集合cl(XR)上,而Vt(·)定义在集合X上,该集合X在许多金融应用中可能是无界的,因为原始状态过程X可能对应于在整个正实线上估值的特定风险资产。我们将在一定意义上描述值函数Vt(·)和Vt(·)之间的差异。为此,有必要对状态过程和报酬函数施加一些假设。假设2。设XR=X∈XR。存在一个可测量的函数E(·,·):XR×R>0-→ [0,1]令人满意∈APhXt=XRt,适用于所有1≤ t型≤ Ti公司≥ 1.- E(X,R)。(18) 式(18)中的E(X,R)给出了辅助状态过程在成熟前某个时间与原始状态过程不一致的概率的上界,而不管DM的动作如何。由于辅助值函数和原始值函数之间的主要差异源于相关状态过程之间的差异,因此上述不等式(18)在表征▄Vt(·)的近似误差方面起着重要作用并不奇怪,我们将在定理1的证明中看到这一点。E(X,R)的表达式应针对每个特定应用进行规定。假设3。(i) 存在一个可测函数B(·):Rd-→ R> 0和一个与t和R无关的通用常数ζ英尺(x)≤ B(x),supa∈At(x)英尺(x,a)≤ B(x),supa∈AE【B(Xt+1)】≤ ζ、 和supa∈AE【英尺(XT)】≤ ζ、 对于所有t∈ T、 (19)(ii)存在一个可测函数ξ(·):R>0-→ R> 0令人满意的SUPX∈XRsupa公司∈At(x)英尺(x,a)!≤ ξ(R),对于所有t∈ T、 和supx∈XR公司英尺(x)≤ ξ(R)。在许多应用中,B(x)具有多项式形式,在这种情况下,上述假设表示奖励函数由上述一致int中的某个多项式所限定。

19
何人来此 在职认证  发表于 2022-6-11 11:01:24
在金融产品定价的背景下,这一假设表明,政策支出具有非经济增长率。以下定理量化了使用辅助问题(15)作为原始随机控制模型(2)的近似值所产生的误差。Kt,RbKt,R▄H(·,εt+1)▄H(·,εt+1)XRXR图5:Kt、R、bKt、R和XR之间关系的图示。定理1(截断误差估计)。假设假设1、2和3成立。然后V(X)-V(X)≤ Tq公司ξ(R)+ζE(X,R)。(20) 上述定理的证明归入附录B.2。不等式(20)可以理解如下。术语ξ(R)+ζE(X,R)对应于两个随机控制模型(2)和(15)在每个时间步的奖励函数之间的差异的上界。由于这种差异主要源于将原始状态过程X替换为XR,因此误差估计中出现术语E(X,R)也就不足为奇了。此外,两个项ξ(R)和ζ对应于奖励项ft量级的某些上界XRt,atandft(Xt,at),因此不等式(20)中会出现一个平方根。最后,随着时间范围的延长,两个值函数之间的差异增大,这是由上述误差估计中存在的因子T所反映的。3.2反向模拟和反向更新算法3.2.1动作后值模拟在本小节中,我们提出了一种LSMC算法,该算法模拟状态过程,而不参考最佳动作。回想第2.2节中FSBU算法的步骤2.1,模拟状态过程的最终目标是生成状态过程的动作后值的随机样本,该样本作为回归步骤的关键输入。

20
可人4 在职认证  发表于 2022-6-11 11:01:27
这自然启发我们直接模拟人工概率分布中的动作后值Xt+。术语“arti-ficial”强调了这样一个事实,即这种分布可能与最佳行动流程下的Xt+分布不一致。因为值函数Vt(·)由等式(16)明确给出XR,我们提出的LSMC算法的主要目标是在开集XR上获得值函数的数值估计。有鉴于此,我们可以限制对模拟动作后值的人工概率分布的支持。首先请注意,EKT表示的辅助状态过程的作用后值范围,Ris由EKT给出,R:=[x∈XR[答∈At(x)K(x,a), 对于t∈ T、 考虑以下子集:bKt,R:=nk∈eKt,R~H(k,e)=~H(k,e)∈ XR,EAN和e∈ ran(εt+1)o,(21)对于t∈ T、 式中,ran(εT+1)是随机新息εT+1可以取的所有值的集合,H(·,·)是将时间步T的后作用值与时间步T+1的状态变量联系起来的过渡方程,如式(14)所示。前面的等式说明Xt+1将在边界集中的某个点停止XRif XRt+:=KXRt,at位于setbKt,R;请参见图5中的图示。为了使模型更具体,让我们考虑可变年金定价的例子(参见Huang and Kwok(2016)和Shen and Weng(2017)),其中XRt+对应于投资账户的提款后价值。如果投资账户在投保人提款后耗尽(即XRt+=0),则该账户将永远耗尽(即XRn=0表示n=t+1,…,t)。在这样的例子中,bKt,Ris是一个单态{0}。鉴于上述讨论和等式(16),对于任何k∈bKt,R,我们观察到▄Ct(k)=Eh▄Vt+1~H(k,εt+1)i=▄Vt+1H(k,e)(22)具有独立于e的值∈ ran(εt+1),由公式(16)给出。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 17:03