|
,N,其中Eat,z[.]表示由事件TVQn=t、ZVQn=z和在时间t时作出决定In=a所条件的期望。我们编写了Qknn算法的伪代码,以计算算法1中的(BVQN,D)。算法1通用Qknn算法输入:–N:时间步数–z:时间T=0时E的状态–ε={E,…,eL}和(p`)L`=1:(εN)Nn的最佳量化的网格和权重=1ΓandΓenth用于分别投影时间n和状态分量的网格,对于n=0,N1: 对于n=n- 1.0 do2:计算时间n时的近似Qknn值:^Qn(z,a)=r(Tn,z,a)+LX`=1p` bVQn+1项目G(z,e`,a),ΓTn+1, 项目F(z,e`,a),ΓEn+1,对于(z,a)∈ Γn×Az;3: 计算时间n^An(z)的最优控制∈ 阿格米纳∈Az^Qn(z,a),代表z∈ Γn,其中argmin很容易计算,因为所有z∈ E4: 通过量化值函数进行分析估计:bVQn(z)=^Qnz、 ^安(z), z∈ Γn;5: 输出结束:–(bVQ):估计V(0,z);我们在备注4.3中讨论了我们可以应用定理4.1的原因。备注4.3当LOB的跳跃次数为N时≥ 1是固定的,可以通过跳跃少于N次来获取受控订单簿的所有状态集(在续集中用K表示)是固定的。因此,(3.6)中定义的奖励函数r是有界的,并且Lipschitz在K上。以下命题表明,VVQ,(N,D)N是由时间离散化、K-最近邻和最优量化方法组合而成的,是时间Tn时值函数的一致估计量,对于N=0,N- 它为值函数的Qknn估计提供了收敛速度。命题4.1 Qknn算法提供的值函数的估计量是一致的。此外,它保持为M→ +∞:VVQ,(N,M)NTVn,ZVn- 越南Tn、ZnM、 2=OαN+M2/d, 对于n=0。
|