有限阶段半马尔可夫决策过程

来源 :中山大学 | 被引量 : 0次 | 上传用户:bittermonkey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要研究有限阶段半马尔可夫决策过程(简记为SMDPs)。本文考虑有限阶段期望报酬准则,研究可数状态空间,有限行动空间和无界报酬的模型。与无限阶段半马氏过程不同,在本文中当系统达到计划时间T后就立即结束,达到T之前系统的转移次数是不确定的。本文希望找到一个方法来刻画有限阶段SMDPs的最优方程和最优策略。   全文主要由三部分组成:   第一部分简单介绍了有限阶段SMDPs的模型,通过引入剩余时间,首次给出了既依赖于系统当前状态又依赖于系统当前剩余时间的决策规则和策略,并在此基础上构建了概率空间和相应的期望报酬最优准则。   第二部分首先提出了全文的一个基本假设.在给定假设的基础上得到了一个计算策略π期望报酬的迭代算法。   然后由不动点理论,本文证明了最优值函数是最优方程的唯一解,并给出了一个计算最优值函数的迭代算法。另外,从最优方程出发,本文证明了最优平稳策略的存在性和最优策略的一些性质.最后用一个设备维护的实际例子进一步阐明本文得到的结论。   第三部分研究了在半马尔可夫核Q的某种特殊情形下SMDPs有限阶段模型转化成了连续时间马尔可夫决策过程(简记为CTMDPs)有限阶段模型和离散时间马尔可夫决策过程(简记为DTMDPs)有限阶段模型,于是本文是对有限阶段CTMDPs和DTMDPs的推广。
其他文献
近几年,随着网络的快速发展,一种新型的商业创新模式—众包应运而生。众包展现出的巨大商业魅力得到众多企业的青睐。然而,由于众包用户的自私特性,致力于最大化自身效益,从而产生
粗糙集理论和模糊集理论是两种处理不精确、不完备和模糊信息的互补的数学工具.粗糙集的优点是不需要先验知识,因此得到的结论很客观;而模糊集的隶属度函数大多由专家给出,结
在这篇文章中,我们考虑带有Navier摩擦边界条件的三维有界区域上不可压缩的Navier-Stokes方程并证明了两种结果。第一种是在有界区域上,如果初始值和强制项在L2空间中,我们证明
随着科学技术的发展,作为动力学的基础,微分方程的振动性受到越来越多专家学者的青睐.由于分数阶微分方程的在实际问题中大量涌现,使得对分数阶微分方程的研究成为热点。作为
数值算法的动力学特征一直被众多学者所关注,它包括很多内容,如收敛性、稳定性、耗散性、正则性、混沌、分叉等等.本文在已有结果的基础上,着重研究一般线性方法求解带离散与分