基于Q-learning的高超声速飞行器自抗扰控制研究

来源 :控制工程 | 被引量 : 0次 | 上传用户:cqhy2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为实现高超声速飞行器姿态自抗扰控制的参数整定,提出一种模糊Q-learning算法。首先,考虑采用强化学习中的Q-learning算法来实现姿态自抗扰控制参数的离线闭环快速自适应整定;其次,根据模糊控制的思路,将控制参数划分成不同区域,通过设定奖励,不断更新Q表; 随后,将训练好的Q表,用于飞行器的控制。仿真结果表明,相对于自抗扰控制和传统滑模控制,所提算法省去了人工调试参数的繁琐过程,并仍具有良好的跟踪效果。最后,通过蒙特卡洛仿真测试验证了所提控制算法的鲁棒性。
其他文献
2021年诺贝尔物理学奖授予了两位气候学家和一位理论物理学家,以表彰他们在"理解复杂物理系统领域所做出的开创性贡献".相信很多人会感到惊讶,为什么诺贝尔物理学奖授予了两位气候学家.本文将从以下几方面给予解读:为什么气候系统被称为复杂的物理系统,全球变暖的现状和未来,全球变暖的物理基础和科学简史,两位气候学家是如何基于基础物理理论建立了预测全球变暖的模型,以及检测和归因人类活动导致全球变暖的方法.
作为支撑高超声速飞行器协同作战的关键技术之一,高超声速飞行器协同制导技术具有重要的研究价值。结合高超声速飞行器的独有特性,总结了高超声速飞行器协同制导问题的特点,明确了其与传统飞行器协同制导问题的差异。对传统导弹协同制导中常见的几种制导方法进行了介绍,简述了其技术要点,分析了其应用于高超声速飞行器协同制导时的差异性与难点。从早期概念研究、中制导阶段、末制导阶段三个部分分别对高超声速飞行器协同制导方
针对传统深度强化学习在求解无人机自主避障与目标追踪任务时所存在的训练效率低、环境适应性差的问题,在深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法中融入与模型无关的元学习(Model-Agnostic Meta-Learning,MAML),设计一种内外部元参数更新规则,提出了元深度确定性策略梯度(Meta-Deep Deterministi
说起四点共圆,想必大家一定都不陌生,它的诸多性质帮助我们解决了很多几何上的难题.今天要研究的托勒密定理,能让我们在四点共圆的基础上进一步深入学习,探索更多的规律.1定理的内容托勒密定理实际上出自伟大的古希腊数学家依巴谷之手,而托勒密只是从他的书中摘出.托勒密定理指出,圆的内接凸四边形两对对边乘积的和等于两条对角线的乘积.
期刊
考虑到高超声速飞行器的实时轨迹规划要求,提出了一种基于深度神经网络的实时轨迹优化方法。建立了高超声速飞行器再入阶段的轨迹优化模型,同时考虑始末位置随机、威胁区随机的情况,采用伪谱法进行离线轨迹优化,获取大量最优轨迹数据样本。以轨迹的状态量和控制量序列为输入,以当前时刻的轨迹控制为输出,建立深度神经网络模型,并基于最优轨迹数据样本库训练深度神经网络模型的参数,以获得能够预测轨迹控制输出的最佳神经网络
由于高超声速飞行器的复杂特性,对其进行航迹规划是一项非常困难的任务.本文针对高超声速飞行器巡航段,提出了一种将无模型的强化学习和交叉熵方法相结合的在线航迹规划算法.本文将航迹规划问题建模为环境信息缺失程度不同的马尔可夫决策过程,利用(PPO)算法在建立的飞行环境模拟器中离线训练智能体,并通过提高智能体的动作在时间上的相关性来保证航迹的曲率平滑.交叉熵方法则以已训练的智能体由观测到的状态给出的动作作
“双减”政策在为学生和家长“减负”的同时,对学校教育提出了更高的要求。文章以苏少版小学音乐教材作品为例,针对“双减”政策下的小学音乐课堂教学设计进行探讨,从“丰富教学方式,以学生为主体”“运用信息技术,提高教学效率”“创新作业形式,体验学习成果”以及“开展艺术社团,增强艺术表现”四个方面具体分析,旨在提高小学音乐教学质量,丰富学生的学习体验,实现真正意义上的“减负”。
目的 验证分析测试片检测不同类型食品菌落总数计数的适用性。方法 与传统GB4789.2—2016《食品安全国家标准食品微生物学检验菌落数测定》平板计数方法平行比较,应用测试片检测肉制品、面食、冷饮、奶制品、豆制品、果蔬和坚果7大类70份天然食品,以及以最常见的两种食源性微生物金黄色葡萄球菌和大肠埃希菌作为标准菌株,制备22份不同食品基质的人工染菌样品。所有检测结果使用两种不同数据方法进行处理分析,
目的 了解重庆市冷冻冰鲜动物性食品销售场所的微生物污染状况,明确微生物污染关键控制点,为制定防控策略提供科学依据。方法 选择重庆市主城地区有代表性的9家大型超市、农贸市场、餐馆,在冷冻冰鲜肉类及水产类食品的加工销售区域检测空气细菌总数,检测台面、砧板、刀具、冰柜、食品从业人员手部以及食品的菌落总数和大肠菌群。结果 99件样本总体合格率为45.45%。空气细菌总数指标合格率为100.00%,食品从业
随着现代信息技术与通信技术的快速发展,工业控制(简称“工控”)系统已经成为国家关键基础设施的重要组成部分,其安全性关系到国家的战略安全和社会稳定。现代工控系统与互联网越来越紧密的联系,一方面促进了工控技术的快速进步,另一方面为其带来了巨大安全问题。自“震网”病毒事件之后,针对工控系统的攻击事件频发,给全球生产企业造成了巨大经济损失,甚至对很多国家和地区的社会稳定与安全造成重大影响,引起人们对工控系