论文部分内容阅读
针对深度强化学习方法在酒店收益管理上的应用问题,本文基于深度强化学习,构建了收益管理决策过程的模型与方法,通过对收益管理问题的马尔可夫性质进行了界定,描述了其模型和参数的统计学性质.同时,编写程序,实现基于深度强化学习的收益管理方法,并通过实验,将本文方法与某供应商采用的传统方法进行对比分析.分析结果表明,强化学习方法与人工收益管理方法相比,总收益提升了约15%,与传统收益管理系统相比,总收益提升了约5%,说明传统的收益管理方法成本较高,监督学习模型过于强调全局泛化性,而增大了对最优结果的估计方差,且计算量过大,而本文提出的方法能够更快地梯度下降到最优位置.该研究为企业在数据驱动下的精准定价和营销决策提供了理论基础.