基于深度策略梯度方法的量化交易策略研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wangying2880
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于深度强化学习的量化交易策略有值函数方法和策略梯度方法两种。值函数方法中的代表深度Q学习在市场单边趋势中收益较高,但趋势发生变化时损失较大。策略梯度方法中的代表深度循环强化学习更能适应市场震荡行情,但由于一方面决策时需要离散化输出动作,降低了模型表达能力,另一方面学习时没有值函数辅助更新策略函数的参数,对新环境的适应较慢,因此交易收益有所降低。本文将研究如何应用策略梯度方法中的深度演员评论家方法,从增强模型的表达能力、提高模型对趋势变化的适应能力和加快模型的收敛速度三个方面构建量化交易策略,以提高收益。针对上述问题,本文以实验室承担的实际项目为背景,在对深度学习、循环强化学习和策略梯度方法等相关技术深入研究的基础上,提出了一种基于深度策略梯度方法的量化交易策略DACT。首先为了提高模型的表达能力和对新趋势的适应能力,将深度演员评论家方法应用在交易策略中,研究实现DACT-SV,然后在此基础上,用深度Q网络近似值函数构建DACT-QV,提出共享LSTM金融环境特征提取网络的方法提高网络的泛化度,提出内部集成方法提高模型的适应能力,提出并行探索方法加快模型的收敛速度,最后,对比基于深度Q学习的交易策略DQT和基于深度循环强化学习的交易策略DRRT,在上证50、沪深300和中证500等股票指数上验证了DACT的有效性。本文的主要工作与创新点如下:1)DACT-SV的构建与改进。将深度演员评论家方法应用在交易策略中,定义状态表示、目标函数和学习过程,提出共享LSTM金融环境特征提取网络的方法增强网络的泛化度。实验表明,DACT-SV在沪深300指数2013年至2018年数据上的日均收益为1.61点,使用LSTM进行特征提取的DACT-SV日均收益提高了0.34点,共享环境特征提取网络的DACT-SV进一步将收益提高了0.33点。2)DACT-QV的构建与改进。将DACT-SV的状态值网络替换为Q网络构建DACT-QV。采用并行探索所有动作的方法加速更新深度Q网络和深度策略网络,输出决策时采用投票法集成两个网络输出的动作以增强模型的适应能力。实验表明,DACT-QV在沪深300指数2013年至2018年数据上每次训练轮数为20时的日均收益为2.14点,与DACT-SV每次训练轮数为100的效果相近,但耗时仅为其1/4。3)与其他交易策略的对比。将DACT与DQT和DRRT进行对比,买入持有策略作为基准。实验表明,DACT在沪深300指数2005-2018年数据上日均收益为2.67点,比DQT高1.46点,比DRRT高1.02点,在上证50指数2004-2018年数据上日均收益为2.28点,比DQT高1.17点,比DRRT高0.56点,在中证500指数2007-2018年数据上日均收益为5.38点,比DQT高3.5点,比DRRT高1.6点。
其他文献
形状记忆聚合物(SMP)是刺激-响应性材料,形状记忆聚合物可以变形并"固定"到一种临时的形状,之后当受到适当的外部刺激时会恢复到原来的(或永久性的)形状。最典型的SMP是热敏性SMP,
为全面了解重庆市桑拿溶室行业的卫生状况及存在问题,提出合理的卫生管理措施.笔者于1999年6月~2000年4月对重庆市26家桑拿浴室经营单位进行了卫生调查监测.
适宜浓度SO2处理结合低温贮藏,能有效地抑制龙眼果实呼吸强度和果皮PPO活性,延缓果实衰老变质,延长贮藏寿命.贮藏60d,果皮色泽淡黄,无褐变,好果率达97%以上.