【摘 要】
:
基于Markov决策过程(MDP)的规划方法可以处理多种不确定规划问题,价值迭代算法(VI)是求解MDP的经典算法,但VI需要计算更新每个状态的值,求解过程相当缓慢。在分析了MDP状态图本身
【机 构】
:
海南大学三亚学院理工分院,海南大学三亚学院公共基础分院,敦化市职业技术学院
论文部分内容阅读
基于Markov决策过程(MDP)的规划方法可以处理多种不确定规划问题,价值迭代算法(VI)是求解MDP的经典算法,但VI需要计算更新每个状态的值,求解过程相当缓慢。在分析了MDP状态图本身的因果依赖关系的基础上,提出一种改进的价值迭代算法,称为顺序价值迭代算法(SVI)。它先将一个MDP分解成多个拓扑有序的强连通分量,然后应用价值迭代算法顺序求解各个分量,这样处理可以避免对大量无用状态的计算并使得可用状态排成拓扑序列。对比实验结果证明了该算法的有效性及优异性能。
其他文献
基于饱和-非饱和渗流理论,利用数值仿真方法,模拟降雨条件下边坡渗流场的变化规律。再考虑渗流产生的孔隙水压力,对边坡的稳定性进行分析,运用条分法计算边坡安全系数,并采用
通过对冲击压实技术在现行工程实践中所采用的质量控制方法归纳总结,引出国外新型质量控制技术,CIR系统与CIS系统。对两系统的组成、运行原理及在实际工程中的应用进行了介绍。
在新疆公路三级自然区划基础上,深入研究了新疆自然环境条件下路基土的工程性质,并运用成熟的数学方法对新疆境内所收集数据进行数理统计分析,建立了不同土组在不同三级自然区的
随着国民经济的发展以及产业结构的调整,中国各行各业对塑料薄膜的市场需求不断上升.为了实现薄膜厚度的在线检测,设计了一种以TMS320F2812为主控芯片的基于数字滤波技术的薄
研究器件参数在硅圆片上的分布规律,分析其原因,找到关键的工艺因素,从而对工艺过程进行更精确的控制。
针对我国煤矿安全现状,研究确定了一种基于RFID和嵌入式技术的煤矿井下人员定位系统,描述了系统的主要结构和工作原理,并给出了系统的软件框图。