|
Williams,《强化学习是直接自适应最优控制》,IEEE控制系统,1992年4月[3]R.Bellman,《动态规划》,普林斯顿大学出版社,新泽西州普林斯顿,1957年[4]R.Sutton,《通过时间差分法学习预测》,机器学习,第3卷,1988年[5]C.J.Watkins,P.Dayan,《技术说明:Q-学习,机器学习》,第9卷,1992年[6]L.Kaelbling,M.Littman,A.Moore,强化学习“一项调查,艺术智能研究杂志,第4卷,1996年[7]J.Moody,M.Saffall,通过直接强化学习交易,IEEETransactions on Neural Networks,第12卷,2001年7月[8]D.Lu,使用线性矩阵不等式的投资组合优化,IITWorking Paper,2005年[9]Y.Deng,F.Bao,Y.Kong,Z.Ren,Q.Dai,金融信号表示和交易的深度直接强化学习,IEEE神经网络和学习系统交易,2015年4月【10】W.Zaremba,I.Sutskever,O.Vinyals,递归神经网络正则化,ICLR,2015【11】H.Beyer,《进化策略理论》,Springer Verlag,美国纽约,2001【12】C.J.Price,I.D.Coope,D.Byatt,NelderMaead算法的收敛变体,J.Optim。理论应用。113,No.1【13】J.Moody,L.Wu,Y.Liao,M.Saffell,《交易系统和投资组合的绩效函数和强化学习》,预测杂志,第17卷,1998【14】W.Sharpe,《Sharpe比率》,投资组合管理杂志,第21卷,【15】C.Gold,《通过循环强化学习、计算和神经系统进行外汇交易》,2003【16】P.J.Werbos,《时间反向传播:它做什么和如何做》,IEEE会议记录,第78卷,1990年10月【17】Y.Kao,B.Van Roy,定向主成分分析,运筹学,2014年7月【18】S.Hochreiter,J.Schmidhuber,长短期记忆,神经计算,1997年【19】Y.Bengio,P.Simard,P。
|