|
DRL方法使代理人能够通过深度学习了解复杂的金融环境,并通过自动应用RL算法学习交易策略。Jiang等人[18]使用adeep确定性政策梯度(DDPG),这是一种结合基于政策和基于价值的RL的先进方法,并引入了各种DNN结构和技术来交易由现金和几种加密货币组成的投资组合。Deng等人[12]使用基于递归RL的算法推导出了资产交易策略,并引入了一个模糊深层递归神经网络,该网络使用fuzzyrepresentation来减少噪声资产价格中的不确定性,并使用深层递归神经网络来考虑之前的行为并利用高维非线性特征。Jeong和Kim【17】推导出了一条资产交易规则,该规则确定了资产的行动以及所采取行动的股份数量。为了学习这一交易规则,Jeong和Kim【17】使用了一种深度Q网络(DQN),该网络具有一种新颖的DNN结构,由两个分支组成,其中一个学习ActionValue,另一个学习要获取的股份数量,以最大化目标函数。上述研究在不同的问题环境中使用了各种基于RL的方法。所有这些方法在每种情况下都表现良好,但一些问题限制了这些方法在现实世界中的适用性。首先,一些问题设置没有考虑交易成本[3、14、17、28、30]。在不假设交易成本的情况下制定的交易策略在现实世界中的应用可能是不切实际的。第二个问题是,一些策略只考虑交易一种资产[1、3、6、11、14、12、17、24、38]。只投资一项风险资产的交易策略可能具有高风险敞口,因为它没有风险分散效应。
|