论文部分内容阅读
随机动态系统性能优化问题一直是众多科学领域的热点问题。对于一些状态具有马氏特征的复杂随机动态系统,系统的状态往往不可观,能够获得的是与系统状态存在一定关联的观测量。对于这一类状态具有马氏特征的复杂随机动态系统,Markov决策过程模型优化方法无法较高效地处理。因此部分可观Markov决策过程(POMDPs)作为Markov决策过程数学模型的推广被提出。部分可观Markov决策过程模型可以很好地刻画系统状态未知的这一类系统,具有比Markov决策过程更广泛的应用性。针对Markov决策过程性能优化问题,众多领域给出了不同的解决方法。近年来,一种基于灵敏度分析的优化方法被提出。该方法为众多领域的不同优化方法的有机地结合,形成了以性能势理论为基础,性能灵敏度公式为核心的优化方法。目前,对于部分可观Markov决策过程模型,基于系统观测的部分可观Markov决策过程的性能差分公式和性能导数公式已经被导出。不过目前给出的灵敏度公式的推导过程需要满足不同策略条件下条件稳态概率相同的假设;另外推导过程中一些参数和公式还依赖于系统状态。上述两个限制导致目前提出的基于观测的部分可观Markov决策过程的性能灵敏度的优化方法只能被应用于一些特殊的排队系统,不能被推广到一般的部分可观Markov决策过程。本文在目前已给出的部分可观Markov决策过程基于性能灵敏度方法基础上,提出一种新的直接基于观测的性能灵敏度优化方法。该方法仅依据于可被获得的系统观测空间。我们将给出仅仅依赖于观测的性能势、报酬函数等相关系统参数的定义。并根据基于观测的性能势与传统性能势的关系,推导出基于观测的泊松方程。整个推导过程仅仅依据于系统的观测,无需其他苛刻的条件限制。基于新方法的性能灵敏度分析可被推广到一般的部分可观Markov决策过程中,因此有广泛的实际应用性。本文将注重性能差公式的推导过程,并导出一种新的策略迭代算法。该算法可寻找出基于新方法的次优策略。本文针对大规模部分可观Markov决策过程模型的优化问题给出一种基于递阶控制理论的策略迭代算法。在递阶控制理论中,若干子系统的性能彼此相互制约相互关联,因此对于大规模部分可观Markov决策过程的优化问题是一种具有条件约束的优化问题。利用基于性能灵敏度的优化方法,给出了满足约束条件下的最优策略的充分条件。在此基础之上,一种基于递阶控制的策略迭代算法将被给出。此算法无需严格的假设条件可以被应用十许多实际问题当中。最后本文通过两个应用实例分析,验证了本文所提出的算法的适用性。