基于连续动作学习自动机的联想强化学习

来源 :山西大学学报(自然科学版) | 被引量 : 0次 | 上传用户：mengdewei6677

【摘要】

：

联想强化学习是一种在不确定环境下的机器学习问题,其中学习系统的目标是为环境的每一种输入状态确定一个最佳的输出动作。文章提出一种新的连续动作学习自动机(CALA)。该自

【作者】

：

刘晓

【机构】

：

中航工业西安航空计算技术研究所,

【出处】

：

山西大学学报(自然科学版)

【发表日期】

：

2015年03期

【关键词】

：

学习自动机连续动作学习自动机强化学习联想强化学习奖励-惩罚

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

联想强化学习是一种在不确定环境下的机器学习问题,其中学习系统的目标是为环境的每一种输入状态确定一个最佳的输出动作。文章提出一种新的连续动作学习自动机(CALA)。该自动机以一个可变区间作为动作集,并依照均匀分布方式产生输出动作。根据环境反馈的成功/失败信号,学习算法对动作区间的端点进行自适应更新。将该方法应用于求解两个经典的联想强化学习问题,仿真结果演示了新算法相对于两种现有的CALA算法的优越性。与旧算法相比,新算法的学习性能平均可提高1.9%到5.7%,最高可提高22.4%到65.2%。

其他文献

亚洲第三方物流的现状和发展

亚洲的3PL 发展迅速但实力依然需要进一步改善，与发达国家存在着不小的差距。物流行业专业化发展已成为亚洲的当务之急。

期刊

专业化发展物流管理第三方物流物流行业现状和发展

维修咨询热线

一辆2005年产富康1.6轿车，搭载TU5JP4型直列4缸16气门电控发动机。用户反映该车在行驶过程中会自动熄火。接车后，我们连接故障诊断仪对发动机控制系统进行检测，设备提示点火过晚。请问该车的故障应该如何检修?　　(浙江读者尤振平)　　由于发动机控制单元中已经存储了关于点火过晚的故障码，因此需要根据故障码的提示对该车的故障进行分析。　　既然发动机控制单元提及到了点火的问题，那么就需要对该车的点火

期刊

热线咨询发动机控制系统故障诊断仪维修电控发动机自动熄火行驶过程

习近平关于中华优秀传统文化有关论述研究

党的十八大以来,习近平总书记肯定了中华优秀传统文化的历史意义,以中华人民共和国建国以来四代领导人的传统文化观为理论渊源,提出了一系列新思想、新观点、新论断。他围绕

期刊

习近平中华优秀传统文化中国特色社会主义国家治理

红河州旅游公共服务供给研究

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技

学位

旅游公共服务旅游管理公共信息

既有建筑天然光环境的改造

目的研究现代技术在天然采光中的应用，解决由于客观因素导致天然采光薄弱的问题．方法从建筑光学基本理论着手，利用反射隔板将天然光引入，传输到室内需要的空间，并通过计算机分析软

期刊

天然采光采光系数采光板太阳高度角

浅析我国网络舆论监督的特点

从世界首台计算机研制成功至今，在不到一个世纪的时间里全球已经被网络化，而网络媒体更是以其独有的优势迅速占据传播渠道成为当今社会的重要媒体。在此种趋势之下，网络舆论监督

期刊

网络媒体舆论监督

市场价格波动与政府的干预角色

市场形成价格是市场经济的主要特征,然而,我国仍处于社会主义初级阶段,处于计划经济向市场经济转型时期,市场发育不完善,法律制度不健全,政府很难对市场价格完全放任不管,也

学位

政府干预价格波动经济法牛肉面

成都铁路枢纽与城市交通系统的整合规划研究

成都铁路枢纽位于西部特大中心城市成都市,该市辖10区4市6县,经济发展和城市化进程迅速,城市辐射能力强,带来了人流、物流的大幅度上升,产生了大量的城市交通运输需求。成都

学位

城市铁路系统整合数学描述效益评价

水产品贸易中食品安全管制的作用机制及效应分析

食品安全关系到人类的生命和健康,成为对外贸易中的一道重要关口。受世界贸易大环境以及种种因素的影响,水产品贸易越来越多的受到来自于食品安全方面的限制。而国内对水产品

学位

水产品贸易食品安全管制食品安全

基于连续动作学习自动机的联想强化学习

其他学术论文