部分可观马尔科夫决策过程直接基于观测的优化方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:yughg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随机动态系统性能优化问题一直是众多科学领域的热点问题。对于一些状态具有马氏特征的复杂随机动态系统,系统的状态往往不可观,能够获得的是与系统状态存在一定关联的观测量。对于这一类状态具有马氏特征的复杂随机动态系统,Markov决策过程模型优化方法无法较高效地处理。因此部分可观Markov决策过程(POMDPs)作为Markov决策过程数学模型的推广被提出。部分可观Markov决策过程模型可以很好地刻画系统状态未知的这一类系统,具有比Markov决策过程更广泛的应用性。针对Markov决策过程性能优化问题,众多领域给出了不同的解决方法。近年来,一种基于灵敏度分析的优化方法被提出。该方法为众多领域的不同优化方法的有机地结合,形成了以性能势理论为基础,性能灵敏度公式为核心的优化方法。目前,对于部分可观Markov决策过程模型,基于系统观测的部分可观Markov决策过程的性能差分公式和性能导数公式已经被导出。不过目前给出的灵敏度公式的推导过程需要满足不同策略条件下条件稳态概率相同的假设;另外推导过程中一些参数和公式还依赖于系统状态。上述两个限制导致目前提出的基于观测的部分可观Markov决策过程的性能灵敏度的优化方法只能被应用于一些特殊的排队系统,不能被推广到一般的部分可观Markov决策过程。本文在目前已给出的部分可观Markov决策过程基于性能灵敏度方法基础上,提出一种新的直接基于观测的性能灵敏度优化方法。该方法仅依据于可被获得的系统观测空间。我们将给出仅仅依赖于观测的性能势、报酬函数等相关系统参数的定义。并根据基于观测的性能势与传统性能势的关系,推导出基于观测的泊松方程。整个推导过程仅仅依据于系统的观测,无需其他苛刻的条件限制。基于新方法的性能灵敏度分析可被推广到一般的部分可观Markov决策过程中,因此有广泛的实际应用性。本文将注重性能差公式的推导过程,并导出一种新的策略迭代算法。该算法可寻找出基于新方法的次优策略。本文针对大规模部分可观Markov决策过程模型的优化问题给出一种基于递阶控制理论的策略迭代算法。在递阶控制理论中,若干子系统的性能彼此相互制约相互关联,因此对于大规模部分可观Markov决策过程的优化问题是一种具有条件约束的优化问题。利用基于性能灵敏度的优化方法,给出了满足约束条件下的最优策略的充分条件。在此基础之上,一种基于递阶控制的策略迭代算法将被给出。此算法无需严格的假设条件可以被应用十许多实际问题当中。最后本文通过两个应用实例分析,验证了本文所提出的算法的适用性。
其他文献
根据达尔文的进化理论及近代分子进化理论,人类大脑的进化必将受到达尔文正向选择的作用,而这种作用将在基因、基因组上留下踪迹。本文从目前已知在人的大脑中表达的基因中,
为研究思维导图在放射医学专业肿瘤放射治疗学课程中的教学效果,随机抽取42名放射医学专业学生作为实验组,采用思维导图策略进行教学,抽取41名放射医学专业学生作为对照组,采用传
留学生医学教育是新时期教育国际化的一个重要组成部分,在许多医药类院校都得到了积极的响应,收到了良好的效果。医学本科留学生规模不断扩大,如何提高留学生教学质量问题日
自2007年起,吉林大学白求恩医学院药理学系开始全英讲授海外留学生中本科生和硕士研究生的药理理论课和实验课。为顺应医学教育国际化趋势的需要,培养具有国际视野和标准的临
根据医学生物化学知识特点和教学大纲要求,甄选出适当内容制作直观动画,并在教学实践中应用。对动画在医学生物化学课堂教学中的应用效果进行评价分析,结果表明动画的应用不仅丰
目的:探讨慢性乙型肝炎(chronic hepatitis B,CHB)患者血清巨噬细胞迁移移动因子(macrophage migration inhibitory factor,MIF)、白细胞介素-17(interleukin-17,IL-17)、IL-
脑干听觉诱发电位(BAEP)近年来在儿科应用越来越广泛,以往多用于五官科先天性或后天性聋哑等.近年来,我们对一些儿科疾病(如新生儿窒息、新生儿缺氧缺血性脑病、新生儿高胆红
针对留学生和法医学学科特点,结合留学生教学的实践经验,探索研究如何有效提高留学生教学质量。从全英教学的准备、教学内容的安排、合理运用多种教学手段和教学模式等方面对留
医学微生物学理论内容抽象、繁杂,涉及到的病原微生物种类众多,学生难于记忆。在理论课讲授过程中,可以按照“三性两法”的顺序归纳特殊点对同种属病原体进行比较,或就某一特点对