论文部分内容阅读
本文主要研究有限阶段半马尔可夫决策过程(简记为SMDPs)。本文考虑有限阶段期望报酬准则,研究可数状态空间,有限行动空间和无界报酬的模型。与无限阶段半马氏过程不同,在本文中当系统达到计划时间T后就立即结束,达到T之前系统的转移次数是不确定的。本文希望找到一个方法来刻画有限阶段SMDPs的最优方程和最优策略。
全文主要由三部分组成:
第一部分简单介绍了有限阶段SMDPs的模型,通过引入剩余时间,首次给出了既依赖于系统当前状态又依赖于系统当前剩余时间的决策规则和策略,并在此基础上构建了概率空间和相应的期望报酬最优准则。
第二部分首先提出了全文的一个基本假设.在给定假设的基础上得到了一个计算策略π期望报酬的迭代算法。
然后由不动点理论,本文证明了最优值函数是最优方程的唯一解,并给出了一个计算最优值函数的迭代算法。另外,从最优方程出发,本文证明了最优平稳策略的存在性和最优策略的一些性质.最后用一个设备维护的实际例子进一步阐明本文得到的结论。
第三部分研究了在半马尔可夫核Q的某种特殊情形下SMDPs有限阶段模型转化成了连续时间马尔可夫决策过程(简记为CTMDPs)有限阶段模型和离散时间马尔可夫决策过程(简记为DTMDPs)有限阶段模型,于是本文是对有限阶段CTMDPs和DTMDPs的推广。