基于先验知识的强化学习系统

来源 :上海交通大学学报 | 被引量 : 0次 | 上传用户:cywxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对强化学习算法收敛速度慢的主要原因为强化学习算法所用模型通常都假设系统参数未知、先验知识未知,由此造成该算法从没有任何基础开始搜索最优策略,搜索范围大的问题,提出将强化学习系统建立在先验知识的基础上,既有效利用了前人的工作成果,又加快了算法的收敛速度.通过解决电梯群控问题验证了所提出系统的合理性和有效性.
其他文献
以某卫星构架结构为研究对象,在有限元分析和模态试验验证的基础上,建立合理的优化模型,采用序列二次规划法进行固有频率的优化分析,力求尽可能地降低构架结构的总质量,同时
劳务分包管理是铁路施工管理中的重要组成部分,随着我国铁路建设事业的不断发展,对铁路施工中的劳务分包要求也越来越高。本人就目前铁路施工中劳务分包现状及存在在问题进行分
1994年以来,青岛市机关事业单位养老保险工作按照关于建立多层次社会保障体系的要求,积极进行了改革探索。目前,青岛市机关事业单位养老保险基本框架已经建立,全面推开了事业单位养老保险,除市直及市内四区和崂山区外均开展了包括公务员在内的全员养老保险统筹。截至目前,全市共有26.5万人参加了机关事业养老保险(占全市机关事业单位总人数的78%),其中在职19.3万人,离退休(职)7.2万人。  但由于种种
设计了一种多码率的Turbo编码器,该编码器在引入很少系统复杂性的前提下,采用了多个生成多项式,大大增加了所能覆盖的码率范围.在此基础上,根据Alamouti的空时分组编码和OFDM
利用循环氧化和原位X射线衍射法,研究了Mo3Si-Mo5Si3共晶硅化物在600~1200℃氧化行为,分析了低温氧化规律和高温氧化瘟疫现象.结果表明,共晶硅化物的低温氧化并没有按照热力学
针对我国情况,用灰色理论预测近期国内石油消耗的水平,以能确立一个合理的战略石油储备量规模.根据储备量规模及我国造船厂的建造能力,确定了超大型海洋浮式储油船的容量,并
建立了具有正负系数的二阶中立型时滞微分方程一切解振动的必要条件和有界解振动的充分条件.
从产品生命周期的视角,研究实现知识驱动协同设计的深层产品开发理念.提出了在基于知识的工程环境下,实现知识驱动协同设计的解决方案:利用协同Agent的事件监控、过程跟踪进
循环经济作为一种新型经济发展模式,把传统的依赖资源消耗线性增长的经济转换为依靠生态型资源循环。随着经济的发展,循环经济要求进一步完善林业会计的理论与方法,已成为摆在林