基于因素化表示的TD（λ）算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户：zhan99zhan

【摘要】

：

提出一种新的基于因素法方法的TD（λ）算法。其基本思想是状态因素化表示，通过动态贝叶斯网络表示Markov决策过程（MDP）中的状态转移概率函数，结合决策树表示TD（λ）算法中的状态值函数，

【作者】

：

戴帅殷苌茗张欣

【机构】

：

长沙理工大学计算机与通信工程学院

【出处】

：

计算机工程

【发表日期】

：

2009年13期

【关键词】

：

因素化表示动态贝叶斯网络决策树 TD(λ)算法 factored representation Dynamic Bayesian Networks（DBN

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

提出一种新的基于因素法方法的TD（λ）算法。其基本思想是状态因素化表示，通过动态贝叶斯网络表示Markov决策过程（MDP）中的状态转移概率函数，结合决策树表示TD（λ）算法中的状态值函数，降低状态空间的搜索与计算复杂度，因而适用于求解大状态空间的MDPs问题，实验证明该表示方法是有效的。

其他文献

基于多邮箱的移动Agent通信算法

agent移动的可靠性、实时性是移动agent通信中的难点。该文在总结已有算法的基础上,引入多邮箱和主机Controller的概念,结合两者实现了一个高效、可靠的移动agent通信算法,能

期刊

移动AGENT多邮箱通信机制通信失效实时性mobile agentmulti-mailboxcommunication mechanismcom

2017年3月天然与合成橡胶趋势分析

2月份，天然橡胶行情呈现冲高回落。期货方面，合成橡胶上扬，重卡数据良好，商品市场气氛活跃，推动沪胶在上旬宽幅上扬，1 705合约最高触及22 310点。但是由于泰国抛储削弱了洪水及供应淡季的效应，且因为制品企业原料库存充裕，加之合成橡胶宽幅下跌，下旬沪胶大幅下挫并领跌商品市场，1 705合约低点跌至18 360点。现货方面，期货在上旬的大涨拉动天胶现货宽幅上扬，但是随着期货转弱，现货交投也渐渐遇冷

期刊

合成橡胶天然橡胶商品市场气氛

基于插件机制的网格作业调度研究

根据网格计算中作业调度的特点，基于Platform公司的LSF系统，提出一种适合管理网格系统中作业调度策略的方案——插件机制。鉴于插件即插即用、易于扩充和实现的优势，对网格系统

期刊

网格计算作业调度插件管理grid computingjob schedule plug-in management

基于因素化表示的TD（λ）算法

其他学术论文