基于鸽群的鲁棒强化学习算法

来源 :网络与信息安全学报 | 被引量 : 0次 | 上传用户:JK0803_zengyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种人工智能算法,具有计算逻辑清晰、模型易扩展的优点,可以在较少甚至没有先验信息的前提下,通过和环境交互并最大化值函数,调优策略性能,有效地降低物理模型引起的复杂性。基于策略梯度的强化学习算法目前已成功应用于图像智能识别、机器人控制、自动驾驶路径规划等领域。然而强化学习高度依赖采样的特性决定了其训练过程需要大量样本来收敛,且决策的准确性易受到与仿真环境中不匹配的轻微干扰造成严重影响。特别是当强化学习应用于控制领域时,由于无法保证算法的收敛性,难以对其稳定性进行证明,为此,需要对强化学习进行改进。考虑到群体智能算法可通过群体协作解决复杂问题,具有自组织性及稳定性强的特征,利用其对强化学习进行优化求解是一个提高强化学习模型稳定性的有效途径。结合群体智能中的鸽群算法,对基于策略梯度的强化学习进行改进:针对求解策略梯度时存在迭代求解可能无法收敛的问题,提出了基于鸽群的强化学习算法,以最大化未来奖励为目的求解策略梯度,将鸽群算法中的适应性函数和强化学习结合估计策略的优劣,避免求解陷入死循环,提高了强化学习算法的稳定性。在具有非线性关系的两轮倒立摆机器人控制系统上进行仿真验证,实验结果表明,基于鸽群的强化学习算法能够提高系统的鲁棒性,降低计算量,减少算法对样本数据库的依赖。
其他文献
[目的/意义]从居民人口学特征值—“年龄”出发,考察年龄分布与反诈意识间的相关关系,对于认识和改进反电信网络诈骗宣传工作具有一定的指导意义。[方法/过程]借助Spss26.0统计分析软件,对问卷数据进行分析。[结果/结论]就调查样本而言,近80%的群体接受反诈宣传的意愿比较强烈,且接受反诈宣传的意愿,随着年龄群体高位分布先增强再减弱。居民对反诈宣传内容的理解程度随着年龄群体的增大而降低。在居民识别
速冻食品作为一种采用低温方式加工的食品,能够最大限度保留食物营养成分,因此相对其他加工食品更为健康安全。本文围绕加工食品中速冻食品的工艺改进和速冻食品分类的困境与解决策略进行了阐述。
目的:观察清咽利喉汤联合金嗓散结丸治疗中重度急性喉炎的疗效及对患者T淋巴细胞亚群和血清炎性因子的影响。方法:将132例中重度急性喉炎患者按照随机数字表法分为治疗组和对照组,各66例,两组均予基础干预,在此基础上对照组予金嗓散结丸口服,治疗组在对照组基础上联合清咽利喉汤治疗。观察两组中医证候积分、症状消失时间、临床疗效,检测T淋巴细胞亚群水平和肿瘤坏死因子α(TNF-α)、白介素8(IL-8)、白介
<正>创世神话想象奇特,内容丰富。盘古开天地和上帝创世虽同属创世神话,却存在很大差异。盘古开天地是无目的的,他是实干家,是人类的守护神;上帝创世则是有计划的,他是意念派,是世界的统治者。神话是人类蒙昧时代的童话,是人类文明的开始。创世神话是神话的重要组成部分,是原始人类对开天辟地、万物生成及人类起源的一种浪漫而又严肃的思考。其中包含了人们的价值取向、行为标准和道德风俗等民族意识内容,它必然对后世文
期刊
近年来随着无人机遥感测绘技术的不断发展,无人机航空摄影测绘方法在水利工程中得到广泛应用。本文通过工程实例,针对无人机遥感的数据获取和地标像控点的布设及像控点布设的优化方案做了研究探讨,并提供了相关的应用参数。
在我国小学教学体系中,由于长期以来教学观念、教学方法及实践性的教学条件没有得到根本转变,导致综合实践活动课程极为匮乏,一直以来处于理论的研究探索中,在实践方面处于初步的尝试阶段,并且其中存在诸多现实问题。在这种背景下,将小学综合实践活动与其他课程进行融合更是具有一定的挑战性,且目前在此方面的研究较少。由此,本文基于课程统整视角,对小学综合实践活动课程与音乐课程的有机融合展开具体研究,以此为课程统整
<正>对制造业企业而言,数字化转型早已不是选择题,而是实现可持续发展的必修课。作为全球领先的动力电池研发制造公司,宁德时代是如何实现从“制造”到“智造”的呢?本文梳理了宁德时代经历的“系统升级——万物互联——数据赋能——AI助力”四个阶段,总结其数字化转型的模式和路径,以期为传统制造业企业向数字化企业的转型升级提供借鉴。
期刊
日本是世界上最主要的渔业国家之一。近年来,日本渔业发展呈现出衰退迹象。在日本国内渔业方面,不仅资源衰退,支撑渔业生产的生产力也在逐年减少;在远洋渔业方面,日本远洋渔船业的转型升级收效甚微,产业的国际竞争力相对减弱,渔业产量一蹶不振。在这一背景下日本不断做出改革及出台相关政策推动渔业的发展。基于日本农林水产省(MAFF)官网获取的资料和联合国粮食及农业组织(FAO)数据,从日本渔业经济走势及现状、渔
在测定木质活性炭比表面积和孔容积前,先对活性炭进行脱气预处理,研究预处理条件(脱气温度和脱气时间)对活性炭的比表面积和孔容积的影响,并将所测结果与仪器推荐条件下所测结果进行对比分析。研究结果表明:脱气温度和脱气时间对于物理法木质活性炭比表面积和孔容积分析结果影响较小,这是因为物理法活性炭制备温度高,官能团少,结构以微孔为主,吸附类型以物理吸附为主,吸脱附速度较快。物理法活性炭预处理条件以脱气温度1