一种基于深度强化学习的酒店收益管理模型与方法

来源 :青岛大学学报(工程技术版) | 被引量 : 0次 | 上传用户:mkunaini520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对深度强化学习方法在酒店收益管理上的应用问题,本文基于深度强化学习,构建了收益管理决策过程的模型与方法,通过对收益管理问题的马尔可夫性质进行了界定,描述了其模型和参数的统计学性质.同时,编写程序,实现基于深度强化学习的收益管理方法,并通过实验,将本文方法与某供应商采用的传统方法进行对比分析.分析结果表明,强化学习方法与人工收益管理方法相比,总收益提升了约15%,与传统收益管理系统相比,总收益提升了约5%,说明传统的收益管理方法成本较高,监督学习模型过于强调全局泛化性,而增大了对最优结果的估计方差,且计算量过大,而本文提出的方法能够更快地梯度下降到最优位置.该研究为企业在数据驱动下的精准定价和营销决策提供了理论基础.
其他文献
针对传统的三相永磁同步电机存在的矢量控制方式启动电流和超调量过大及抗干扰性不强等问题,本文设计了一种基于自抗扰控制器的三相永磁同步电机矢量控制系统.在传统双闭环PI控制系统结构的基础上,在Matlab/Simulink软件中,分别采用PI控制器和自抗扰控制器搭建转速环三相永磁同步电机矢量控制系统模型,为了对比控制效果,将两种控制器置于相同电机参数和相同仿真条件下,通过仿真得到两种控制方法下的电机转速、电磁转矩和电流响应.仿真结果表明,基于自抗扰控制器的三相永磁同步电机矢量控制系统,控制性能更优,具有更小的
针对减速带和凹坑等路面正负障碍物目标检测问题,本文基于YOLOv3算法基本原理,在原YOLOv3算法的基础上,采用扩增检测尺度的方法得到改进的YOLOv3算法.利用减速带和凹坑等路面正负障碍物训练集进行模型训练,通过测试集完成对训练模型的测试.测试结果表明,改进后的YOLOv3算法在路面正负障碍物的检测能力上有所提高,RRe值提高了0.8%,RMAP值提高了0.2%,验证了本文对原YOLOv3改进的有效性.该研究可用于智能车辆对减速带和凹坑等路面正负障碍物的检测,具有一定的实际应用价值.