基于因素化表示的TD(λ)算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:zhan99zhan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种新的基于因素法方法的TD(λ)算法。其基本思想是状态因素化表示,通过动态贝叶斯网络表示Markov决策过程(MDP)中的状态转移概率函数,结合决策树表示TD(λ)算法中的状态值函数,降低状态空间的搜索与计算复杂度,因而适用于求解大状态空间的MDPs问题,实验证明该表示方法是有效的。
其他文献
agent移动的可靠性、实时性是移动agent通信中的难点。该文在总结已有算法的基础上,引入多邮箱和主机Controller的概念,结合两者实现了一个高效、可靠的移动agent通信算法,能
2月份,天然橡胶行情呈现冲高回落。期货方面,合成橡胶上扬,重卡数据良好,商品市场气氛活跃,推动沪胶在上旬宽幅上扬,1 705合约最高触及22 310点。但是由于泰国抛储削弱了洪水及供应淡季的效应,且因为制品企业原料库存充裕,加之合成橡胶宽幅下跌,下旬沪胶大幅下挫并领跌商品市场,1 705合约低点跌至18 360点。现货方面,期货在上旬的大涨拉动天胶现货宽幅上扬,但是随着期货转弱,现货交投也渐渐遇冷
根据网格计算中作业调度的特点,基于Platform公司的LSF系统,提出一种适合管理网格系统中作业调度策略的方案——插件机制。鉴于插件即插即用、易于扩充和实现的优势,对网格系统