|
自从我≥ 0和ρ>0根据Jensen不等式,对于任何策略序列{πn}n,我们有Rτnd∧τnal(~Wn(t))dt+ρ1{τna≤τnd}#≥ 0.修复x∈ (a,d)和fix一个任意的策略序列{πn}n Π. 我们证明,对于每一个ε>0,就有N>0,对于每一个N>N,就有Jn(x,πN)≥ U(x)- w(ε),其中w(ε)→ 0为ε→ 0.我们从一些初步准备开始。让ψ*是(3.6)中的函数,并让˙~n*(t)=-e(~n)*(t) ),0≤ T≤ T*,-e(a),T*≤ t、 (4.1)带有*(0)=x,当*是第一次*点击a,这是由于(3.2)。注意到时间T*, φ*微分对策的状态过程与ψ有关吗*和任意控制π∈ Π.让我们假设ε>0。因为l是Lipschitz,所以存在γ>0,所以对于everyy,z∈ [a,∞)|Y- z |<γ意味着| l(y)- l(z)|<ε。(4.2)此外,由于*是连续的,对于t>t*, ˙φ*(t) <0因此,人们可以选择γ,使得- φ*|T*+2ε≤ γ意味着|τa[~n]- T*| ≤ ε、 (4.3)式中τa[~n]:=inf{t≥ 0:~n(t)=a}。事实上,回想一下φ(0)=x∈ (a,d)。现在,因为(·)对[a,d]是肯定的,我们从(4.1)中得到,状态过程*在[0,T]上严格递减*+ 2ε],仅在T处接触a*并在[T]上继续下降*, T*+ 2ε].定义概率度量Q*= Q*,非(Ohm, 英尺*+2ε)bydQ*dP(t)=e-√nRt˙ψ*(s) 分贝(s)-nRt(˙ψ)*)(s) ds,t∈ [0,T*+ 2ε].然后在Q下*, B*(t) =B*,n(t):=B(t)+√nu-rσt,t∈ [0,T*+ 2ε]是一个标准的布朗运动,d~Wn(t)=-e(~Wn(t))+√nσπn(~Wn(t))dB*(t) ,t∈ [0,T*+ 2ε].既然|πn(t)|≤ 然后通过Gronwall不等式和Doob鞅不等式,我们得到一个常数C>0,它依赖于e(·)的Lip-schitz常数,这样Q*((英)c)≤CMnγ(4.4),其中:=ω :~Wn(·ω)- φ*(·, ω)T*+2ε≤ γ.设置N=N(ε,γ,M,C),使N>max-ln(ε)ε,CMεγ,CM(T*+ 2ε)λ +u-rσεγ. (4.5)我们现在已经准备好从Jn(x,πn)以下绑定。
|