基于强化学习的异步动态定价算法

来源 :系统工程学报 | 被引量 : 0次 | 上传用户：suenger

【摘要】

：

研究电子零售市场上两个销售商在彼此没有信息交互情况下的异步动态定价问题．基于性能势理论，建立了同时适用于平均和折扣两种优化准则下的异步定价策略的Q学习和WoLF—PHC算法

【作者】

：

王金田唐昊程文娟毕翔

【机构】

：

合肥工业大学计算机与信息学院,安徽省审计厅,教育部安全关键工业测控技术教育部工程研究中心

【出处】

：

系统工程学报

【发表日期】

：

2011年5期

【关键词】

：

异步动态定价多AGENT 性能势 WoLF—PHC算法 asynchronous dynamic pricing multi-agent performanc

【基金项目】

：

教育部留学同国人员科研启动基金资助项目（教外吲留2008890）,安徽省自然科学基会资助项目（070416242,090-412046）,安徽高校省级自然科学研究重点资助项目（KJ2008A058,KJ2010A256）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

研究电子零售市场上两个销售商在彼此没有信息交互情况下的异步动态定价问题．基于性能势理论，建立了同时适用于平均和折扣两种优化准则下的异步定价策略的Q学习和WoLF—PHC算法，通过一个数值例子比较了相关算法的学习优化效果．仿真结果表明，Q学习和WoLF—PHC算法都能较好地解决异步动态定价问题，但由于后者采用混合策略和可变学习率，故能更好地适应环境变化，并具有更好的学习优化效果．

其他文献

公交运营的协控准点滞站调度模型

滞站调度策略是公交日常运营中最常用的一种控制策略.针对传统滞站策略存在较高误控率的问题,提出一种新型的协控准点滞站调度策略,该策略依据车辆在当前站点和下一站点的准

期刊

公交调度滞站调度策略支持向量机

基于二元关系和布尔推理的分级决策模型

分级决策问题是将备选方案分类到预先定义的具有偏好顺序的决策类中．其中每个方案是由一个有限属性集合来描述的，该属性集合包括名义属性、连续型属性和有序属性．为了建立分级决

期刊

分级布尔推理二元关系粗集决策规则sorting Boolean reasoning binary relation rough sets decisi

求解度约束最小生成树的快速近似算法

针对带有度约束的最小生成树问题，给出了一种快速近似算法．首先给出了快速近似算法的核心思想：在不违反度约束和不形成圈的前提下，每次加入权最小的边．其次给出了实现快速近似算法

期刊

度约束生成树算法旅行商问题degree-constrained spanning tree algorithm TSP

带有减少线性恶化效应的双代理调度问题

本文研究带有减少线性恶化效应的双代理单机调度问题.该问题来源于钢铁企业中的连铸-轧制生产过程.两个代理在共同的单机上竞争加工各自的工件,每个代理都有自己的目标函数需

期刊

调度双代理减少线性恶化单机scheduling two-agent decreasing linear deterioration single mac

有向多重边复杂网络的自适应同步控制

基于网络拆分的思想,将具有不同时延的多重边有向复杂网络进行拆分,建立了具有非线性耦合节点的多重边有向复杂网络模型,并对其自适应同步控制加以研究.运用Lyapunov稳定性理

期刊

有向多重边复杂网络非线性耦合节点网络拆分同步自适应控制directed complex dynamical networks with multi-l

基于强化学习的异步动态定价算法

其他学术论文