论文部分内容阅读
基于深度强化学习的量化交易策略有值函数方法和策略梯度方法两种。值函数方法中的代表深度Q学习在市场单边趋势中收益较高,但趋势发生变化时损失较大。策略梯度方法中的代表深度循环强化学习更能适应市场震荡行情,但由于一方面决策时需要离散化输出动作,降低了模型表达能力,另一方面学习时没有值函数辅助更新策略函数的参数,对新环境的适应较慢,因此交易收益有所降低。本文将研究如何应用策略梯度方法中的深度演员评论家方法,从增强模型的表达能力、提高模型对趋势变化的适应能力和加快模型的收敛速度三个方面构建量化交易策略,以提高收益。针对上述问题,本文以实验室承担的实际项目为背景,在对深度学习、循环强化学习和策略梯度方法等相关技术深入研究的基础上,提出了一种基于深度策略梯度方法的量化交易策略DACT。首先为了提高模型的表达能力和对新趋势的适应能力,将深度演员评论家方法应用在交易策略中,研究实现DACT-SV,然后在此基础上,用深度Q网络近似值函数构建DACT-QV,提出共享LSTM金融环境特征提取网络的方法提高网络的泛化度,提出内部集成方法提高模型的适应能力,提出并行探索方法加快模型的收敛速度,最后,对比基于深度Q学习的交易策略DQT和基于深度循环强化学习的交易策略DRRT,在上证50、沪深300和中证500等股票指数上验证了DACT的有效性。本文的主要工作与创新点如下:1)DACT-SV的构建与改进。将深度演员评论家方法应用在交易策略中,定义状态表示、目标函数和学习过程,提出共享LSTM金融环境特征提取网络的方法增强网络的泛化度。实验表明,DACT-SV在沪深300指数2013年至2018年数据上的日均收益为1.61点,使用LSTM进行特征提取的DACT-SV日均收益提高了0.34点,共享环境特征提取网络的DACT-SV进一步将收益提高了0.33点。2)DACT-QV的构建与改进。将DACT-SV的状态值网络替换为Q网络构建DACT-QV。采用并行探索所有动作的方法加速更新深度Q网络和深度策略网络,输出决策时采用投票法集成两个网络输出的动作以增强模型的适应能力。实验表明,DACT-QV在沪深300指数2013年至2018年数据上每次训练轮数为20时的日均收益为2.14点,与DACT-SV每次训练轮数为100的效果相近,但耗时仅为其1/4。3)与其他交易策略的对比。将DACT与DQT和DRRT进行对比,买入持有策略作为基准。实验表明,DACT在沪深300指数2005-2018年数据上日均收益为2.67点,比DQT高1.46点,比DRRT高1.02点,在上证50指数2004-2018年数据上日均收益为2.28点,比DQT高1.17点,比DRRT高0.56点,在中证500指数2007-2018年数据上日均收益为5.38点,比DQT高3.5点,比DRRT高1.6点。