【摘 要】
:
联想强化学习是一种在不确定环境下的机器学习问题,其中学习系统的目标是为环境的每一种输入状态确定一个最佳的输出动作。文章提出一种新的连续动作学习自动机(CALA)。该自
论文部分内容阅读
联想强化学习是一种在不确定环境下的机器学习问题,其中学习系统的目标是为环境的每一种输入状态确定一个最佳的输出动作。文章提出一种新的连续动作学习自动机(CALA)。该自动机以一个可变区间作为动作集,并依照均匀分布方式产生输出动作。根据环境反馈的成功/失败信号,学习算法对动作区间的端点进行自适应更新。将该方法应用于求解两个经典的联想强化学习问题,仿真结果演示了新算法相对于两种现有的CALA算法的优越性。与旧算法相比,新算法的学习性能平均可提高1.9%到5.7%,最高可提高22.4%到65.2%。
其他文献
亚洲的3PL 发展迅速但实力依然需要进一步改善,与发达国家存在着 不小的差距。物流行业专业化发展已成为亚洲的当务之急。
一辆2005年产富康1.6轿车,搭载TU5JP4型直列4缸16气门电控发动机。用户反映该车在行驶过程中会自动熄火。接车后,我们连接故障诊断仪对发动机控制系统进行检测,设备提示点火过晚。请问该车的故障应该如何检修? (浙江读者尤振平) 由于发动机控制单元中已经存储了关于点火过晚的故障码,因此需要根据故障码的提示对该车的故障进行分析。 既然发动机控制单元提及到了点火的问题,那么就需要对该车的点火
党的十八大以来,习近平总书记肯定了中华优秀传统文化的历史意义,以中华人民共和国建国以来四代领导人的传统文化观为理论渊源,提出了一系列新思想、新观点、新论断。他围绕
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
目的研究现代技术在天然采光中的应用,解决由于客观因素导致天然采光薄弱的问题.方法从建筑光学基本理论着手,利用反射隔板将天然光引入,传输到室内需要的空间,并通过计算机分析软
从世界首台计算机研制成功至今,在不到一个世纪的时间里全球已经被网络化,而网络媒体更是以其独有的优势迅速占据传播渠道成为当今社会的重要媒体。在此种趋势之下,网络舆论监督
市场形成价格是市场经济的主要特征,然而,我国仍处于社会主义初级阶段,处于计划经济向市场经济转型时期,市场发育不完善,法律制度不健全,政府很难对市场价格完全放任不管,也
成都铁路枢纽位于西部特大中心城市成都市,该市辖10区4市6县,经济发展和城市化进程迅速,城市辐射能力强,带来了人流、物流的大幅度上升,产生了大量的城市交通运输需求。成都
食品安全关系到人类的生命和健康,成为对外贸易中的一道重要关口。受世界贸易大环境以及种种因素的影响,水产品贸易越来越多的受到来自于食品安全方面的限制。而国内对水产品