论文部分内容阅读
研究一类连续时间Markov控制过程(CTMCP)在紧致行动集上关于平均代价性能准则的优化算法.根据CTMCP的性能势公式和平均代价最优性方程,导出了求解最优或次最优平稳控制策略的策略迭代算法和数值迭代算法,在无需假设迭代算子是sp-压缩的条件下,给出了这两种算法的收敛性证明.最后通过分析一个受控排队网络的例子说明了这种方法的优越性.