性能势相关论文
本文采用性能势理论和方法,研究了动态控制系统的学习和优化的问题。性能势理论是学习和优化领域相当重要的一套理论和方法。基于......
本文以Markov性能势为基础,讨论G/M/1型排队系统的稳态性能灵敏度分析与优化问题。文中给出了系统极限分布与嵌入Markov链的稳......
本文将Markov性能势理论推广到了半Markov过程,在此基础上,讨论了一类具有可数状态空间的半Markov控制过程的稳态性能灵敏度分析......
本文研究了随机非线性系统的最优控制设计问题,给出了基于性能势的在线优化算法。性能势函数通过系统样本路径进行估算,优化控制可......
半马尔可夫决策过程(SMDP)可用来描述实际生活中很大一类离散事件动态系统,即半Markov系统。实际的系统不可避免地存在不确定性,而......
离散事件动态系统(DEDS)是实际生活中广泛存在的一类人造系统,而半Markov决策过程(SMDP)是这类系统建模的主要方法之一。为了适应......
学位
随着社会和科技的发展,离散事件动态系统(DEDS)的性能分析和优化应用已经成为控制与系统、管理、计算机等学科交叉领域内的一个前......
学位
作为一类特殊的随机过程,Markov过程在实际生活中有着广阔的应用领域。Markov决策过程(MDP)和半Markov决策过程(SMDP)都是描述这类......
具有抽象机制的分层强化学习方法可以实现状态空间的降维,从而解决大规模系统中的“维数灾”问题。由于引入了状态抽象机制,分层强......
随机动态系统和勒贝格采样系统在通讯网络、柔性制造、人工智能、军事指挥管理、生产生活等各个领域有着广泛的应用,是学习和优化......
基于性能势理论,对离散事件动态系统进行性能分析和性能优化时,需要计算实现因子和性能势.在这篇文章中,以遍历Markov链为模型,针对现有......
本文的工作重点是研究半Markov控制过程中的并行优化算法。首先给出一种半Markov控制过程性能势的估计算法,相对于基于实现矩阵的估......
研究一类受控闭排队网络系统的性能优化问题 .文章引进了两个基本概念 :折扣代价α 性能势和平均代价性能势 ,并且讨论了这两个性......
给出半Markov过程(Semi-Markov Processes)性能势基于一条样本轨道的仿真算法,从并行仿真的角度,将已有Markov过程的性能势理论推......
基于3层架构的映射框架,本文以视频业务为主要研究对象,研究了分布式协同接入控制系统的建模和调控机理。不失一般性,假设视频业务需......
传统基于性能势的学习算法能获得马尔可夫决策问题的最优策略。这些算法主要采用单路径采样的方法,使得学习算法效率不高。将性能势......
文章在rollout算法基础上研究了在多Agent MDPs的学习问题.利用神经元动态规划逼近方法来降低其空间复杂度,从而减少算法"维数灾".由......
研究一类连续时间Markov控制过程(CTMCP)在紧致行动集上关于平均代价性能准则的优化算法.根据CTMCP的性能势公式和平均代价最优性......
研究半马尔可夫决策过程(SMDP)基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP的一致马尔可夫链的单个样本轨道,给出了......
半马尔可夫决策过程(SMDP)描述的一类受控半Markov系统,其模型参数在实际中常常不确定或不可知,可能导致随机过程的性能函数和系统参数......
Markov控制过程是研究随机离散事件动态系统性能优化问题的一个重要模型,并在许多实际工程问题中有着广泛的应用。在Markov性能势......
对具有一般分布的排队系统-M/G/1排队系统给出了一种通过其嵌入Markov链来计算系统势能及性能导数的仿真算法。由于该算法基于分析......
在闭排队网络服务策略的优化中,基于对系统一条样本轨道的仿真进行策略优化是一种很有实用意义的方法。但在具体优化过程中,过多的......
考虑半马尔可夫决策过程(SMDP)在一些系统参数不确定,且性能函数依赖于这些参数时的鲁棒决策问题。这些参数的不确定性不仅导致等......
对G/M/1排队系统,通过研究其嵌入Markov链,讨论了系统的稳态性能灵敏度分析问题,导出了系统的稳态分布与其嵌入Markov链的稳态分布......
在对遍历Markov链的性能灵敏度分析中,可以用计算Markov链的实现因子来代替计算Markov链的性能势。给出了一种基于耦合技术的仿真......
非线性随机系统的最优控制,采用基于性能势的随机优化数值算法。在合适的性能指标并能找到一个使系统性能有界的控制的前提下,通过策......
研究了一类离散时间Markov控制过程平均代价性能最优控制决策问题.应用Markov性能势的基本性质,在很一般性的假设条件下,直接导出......
文中研究了一类连续时间Markov控制过程(CTMCP)无穷水平平均代价性能的最优控制决策问题.文章采用无穷小生成元和性能势的基本性质......
为适应实际大规模Markov系统的需要,讨论Markov决策过程(MDP)基于仿真的学习优化问题-根据定义式,建立性能势在平均和折扣性能准则下统......
研究了一类具有可数状态空间的Markov控制过程在无限水平平均代价准则下的最优平稳策略问题.对此类过程,引入了折扣Poisson方程,运......
研究电子零售市场上两个销售商在彼此没有信息交互情况下的异步动态定价问题.基于性能势理论,建立了同时适用于平均和折扣两种优化准......
强化学习是人工智能领域中解决学习控制的一种重要方法。在强化学习算法中,平均奖赏强化学习是以平均奖赏值作为参照标准,适用于解决......
基于Markov性能势理论,对一类闭排队网络的灵敏度估计和优化,建立了一种行之有效的并行仿真算法.采用公共随机数,使所有的处理器使......
对Markov性能势理论在一类闭排队网络中的应用给出了一种高效的并行仿真算法.针对仿真中占总运算量70%以上的一类参数矩阵运算的特点,提出了一......
基于三层架构的映射框架,本文研究了分布式协同接入控制的建模和调控机理。因为视频业务已成为引起接入网性能瓶颈的主要因素,所以本......
由于人们对网络服务的需求急剧增长,网络服务提供系统的数量和规模出现爆炸式增长,同样网络服务系统的耗电量也在快速增加。网络服......
无人机系统在恶劣气象条件和动态战场环境中的应用,给无人机控制技术带来不确定性、高度非线性、多输入多输出、输入通道耦合以及......
论文对于M/PH/1排队系统给出一种计算势能及性能导数的仿真算法 .由于其基于分析系统的一条单一样本轨道,故该算法可直接用于系统......
通过分析具有Erlang服务分布的排队系统的稳态性能灵敏度问题,给出一种基于其嵌入Markov链来计算势能及性能导数的算法.并用通信网......
研究了一类半Markov控制过程(SMCP)在紧致行动集上关于无限水平平均代价准则的性能优化算法.利用等价Markov过程的方法,导出了SMCP......
根据等价Markov过程方法,研究了一类半Markov控制过程在紧致行动集上关于无限水平平均代价准则的性能优化算法.由于实际系统的状态空......
运用基于性能势的M步向前(look-ahead)异步策略迭代算法研究了半Markov决策过程(SMDP)优化问题。首先给出了基于性能势理论求解的......
随着Internet技术的迅猛发展,电子商务得到了广泛应用,电子销售市场中的动态定价问题研究具有十分重要的现实意义。论文主要使用强......
为了解决非线性系统中的最优控制问题,在性能势理论的基础上,提出了一种基于勒贝格采样的新的事件触发控制策略。首先,根据最优控......
从连续时间Markov链(CTMC)性能势的角度,借助于定义的折扣Poisson方程,给出了CTMC基于性能势的灵敏度公式及折扣代价准则(简称折扣......
基于性能势的方法,研究了一类半Markov过程(SMP)的性能灵敏度分析和平均费用下的性能优化问题.将 SMP转化为与之等价的离散时间Mar......