|
在时间tn,假设映射^vtn+1:(z,s,w)7→ ^vtn+1(z,s,w)已估算,其中一个获得svtn(z,s,w)=supαtn∈AEh^vtn+1Ztn+1,S(tn+1)-, W(tn+1)-Ztn=z,S(tn)-= s、 W(tn)-= wi公司≈ maxaj公司∈AdEh^vtn+1Ztn+1,S(tn+1)-, W(tn+1)-Ztn=z,αtn=aj,S(tn)-= s、 W(tn)-= wi。通过决定αtn=aj,时间内的内生状态变量(tn)-可以在时间tn:vtn(z,s,w)=maxaj时更新到其RPost事务值∈AdE“^vtn+1Ztn+1,S(tn+1)-, W(tn+1)-Ztn=Ztn,αtn=αtn,qtn=qtn,Stn=Stn,Wtn=Wtn#(3.1),其中Ztn=zαtn=ajqtn=qtn-1+Q(aj,s,w)Stn=s+MI(Q(aj,s,w))Wtn=w- TC(Q(aj,s,w))·d- LC(Q(aj,s,w))·d+MI(Q(aj,s,w))·qntherefore,对于每个蒙特卡罗路径m=1。。。,M、 我们将决策αmto更新为aj,并在时间tn重新计算相应的内生变量^qmtn=Qaj,~Sm(tn)-,Wm(tn)-^qmtn=▄qmtn-1+^qmtn^Smtn=▄Sm(tn)-+ 密歇根州^qmtn^Wmtn=~Wm(tn)-- TC公司^qmtn·~d- 信用证^qmtn·~d+MI^qmtn·^qmtn,然后在时间t(n+1)前一步重新计算内生状态变量-, i、 e.,^Sm(tn+1)-=^Smtn×exprmtn+1^Wm(tn+1)-=^Wmtn+rfqf,mtn+^qmtn·^Smtn×rmtn+1.最后,设置{Lk(z,s,w)}1≤k≤Kto是状态变量基函数的向量。我们通过最小二乘最小化,即n^βjk,tno1,估计“连续值”(方程(3.1)中的条件期望值≤k≤K=arg最小值β∈RKMXm=1PKk=1βkLkZmtn、^Smtn、^Wmtnαmtn=aj-^vtn+1Zmtn+1,^Sm(tn+1)-,^Wm(tn+1)-αmtn=aj.
|