|
《应用可能性杂志》,19(4):794–802,1982年。[29]阿维夫·塔马尔和希伊·曼诺。方差调整的演员-评论家算法。arXiv预印本XIV:1310.36972013。[30]Aviv Tam ar、Dotan Di Castro和Shie Mannor。奖励差异的时间差分方法。在2013年第495–503页的国际机器学习会议上。[31]郝冉·沃恩和周迅宇。连续时间均值-方差投资组合选择:强化学习框架。arXiv预浸纸t arXiv:1904.113922019。[32]王浩然、塔莱娅·扎里波普洛、周迅宇。探索与开发:一种随机控制方法。arXiv预印本:arXiv:1812.01552V32019。【33】周迅宇、段力。连续时间均值-方差投资组合选择:随机LQ框架。《应用数学与优化》,42(1):19–332000。受控财富动态let Wt=(Wt,…,Wdt),0≤ t型≤ T是在过滤概率空间上定义的标准d维布朗运动(Ohm, F、 {Ft}0≤t型≤T、 P)满足通常条件。第i项风险资产的价格过程是由DSIT=Sit控制的几何布朗运动uidt+σi·dWt, 0≤ t型≤ T、 i=1,d、 (22)当Si=Si>0 b为t=0时的初始价格,且ui∈ R、 σi=(σ1i,…,σdi)∈ Rd分别为第i项风险资产的平均回报率和波动率系数。我们用u表示f或V平均返回向量∈ Rd和σ的波动率矩阵∈ Rd×d,其第i列表示第i风险资产的波动率σiof。无风险资产的固定利率r>0。我们假设σ是非退化的,因此存在满足σ′ρ=u的d维向量ρ- r1,其中1是所有分量为1的d维向量。向量ρ被称为风险的市场价格。
|