基于强化学习的异步动态定价算法

来源 :系统工程学报 | 被引量 : 0次 | 上传用户:suenger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究电子零售市场上两个销售商在彼此没有信息交互情况下的异步动态定价问题.基于性能势理论,建立了同时适用于平均和折扣两种优化准则下的异步定价策略的Q学习和WoLF—PHC算法,通过一个数值例子比较了相关算法的学习优化效果.仿真结果表明,Q学习和WoLF—PHC算法都能较好地解决异步动态定价问题,但由于后者采用混合策略和可变学习率,故能更好地适应环境变化,并具有更好的学习优化效果.
其他文献
滞站调度策略是公交日常运营中最常用的一种控制策略.针对传统滞站策略存在较高误控率的问题,提出一种新型的协控准点滞站调度策略,该策略依据车辆在当前站点和下一站点的准
分级决策问题是将备选方案分类到预先定义的具有偏好顺序的决策类中.其中每个方案是由一个有限属性集合来描述的,该属性集合包括名义属性、连续型属性和有序属性.为了建立分级决
针对带有度约束的最小生成树问题,给出了一种快速近似算法.首先给出了快速近似算法的核心思想:在不违反度约束和不形成圈的前提下,每次加入权最小的边.其次给出了实现快速近似算法
本文研究带有减少线性恶化效应的双代理单机调度问题.该问题来源于钢铁企业中的连铸-轧制生产过程.两个代理在共同的单机上竞争加工各自的工件,每个代理都有自己的目标函数需
基于网络拆分的思想,将具有不同时延的多重边有向复杂网络进行拆分,建立了具有非线性耦合节点的多重边有向复杂网络模型,并对其自适应同步控制加以研究.运用Lyapunov稳定性理