融合强化学习和进化算法的高超声速飞行器航迹规划

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户:cxsxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于高超声速飞行器的复杂特性,对其进行航迹规划是一项非常困难的任务.本文针对高超声速飞行器巡航段,提出了一种将无模型的强化学习和交叉熵方法相结合的在线航迹规划算法.本文将航迹规划问题建模为环境信息缺失程度不同的马尔可夫决策过程,利用(PPO)算法在建立的飞行环境模拟器中离线训练智能体,并通过提高智能体的动作在时间上的相关性来保证航迹的曲率平滑.交叉熵方法则以已训练的智能体由观测到的状态给出的动作作为一种先验知识,进一步在线优化规划策略.实验结果表明了本文的方法可以生成曲率平滑的航迹,在复杂的飞行环境中具有较高的成功率,并且可以泛化到不同的飞行环境中.
其他文献
常规弹药制导化改造是现代战争信息化、智能化发展的重要方向。弹体导航参数信息的可靠高精度测量是制导弹药实现精准打击的关键。基于MEMS技术的惯性基组合导航系统使制导弹药对“动态、过载、精度、成本”等要素的需求成为可能。因此,发展高精度及高可靠性的惯性基组合导航技术是弹载导航领域所研究的重点和焦点,对制导弹药的发展具有重要现实意义。本论文在课题组前期开展的旋转制导弹用半捷联惯性导航系统研究的基础上,以
对2021年IEEE惯性传感器与系统会议、MEMS国际会议、圣彼得堡组合导航会议等惯性技术相关会议文献,以及惯性技术领域相关机构披露的动态信息进行详细梳理。总结了光学陀螺、微机电(MEMS)陀螺、半球谐振陀螺(HRG)、原子陀螺和加速度计等惯性仪表及惯性系统的发展现状,并对惯性技术领域的发展动向进行了剖析与展望。
步入青春期的学生在生理与心理上都面临许多挑战。开展适合学生青春期发展的教学活动,帮助处于青春期的初中生更好地面对现实中的困惑,已经成为健康教育课的目标之一。文章通过课前问卷调研学生需求、课程中开展以团队心理辅导形式的学生活动、教师总结、课后反思等环节,为新时期开展青春期“性”主题健康教育课提供思路。
捷联惯性导航系统中的加速度计用于测量运载体的加速度信息,其加速度输出范围通常在10-5g到十多个g之间,且捷联惯导系统最终导航或者制导的精度很大程度上取决于加速度计的采集精度和数据处理精度。石英挠性加速度计作为主要的惯性传感器,其输出表现为微弱模拟电流信号。然而如此微小以及宽动态范围的微弱电流信号既不利于高精度的测量,也不利于信号的无损传输,另外后期导航解算计算机无法直接利用该信号进行数字解算并进
针对基于强化学习的干扰决策方法存在着收敛速度过慢的问题,在Dyna-Q算法的基础上提出一种规划步数自适应的Dyna-Q干扰决策算法。在保证干扰策略有效性的前提下,提升强化学习算法的收敛速度,使算法能以更快的速度学习到最优干扰策略。实验与仿真结果表明:该算法能实现多功能雷达干扰的实时有效,也可扩展到其他强化学习应用领域,具有一定借鉴价值。
2021年诺贝尔物理学奖授予了两位气候学家和一位理论物理学家,以表彰他们在"理解复杂物理系统领域所做出的开创性贡献".相信很多人会感到惊讶,为什么诺贝尔物理学奖授予了两位气候学家.本文将从以下几方面给予解读:为什么气候系统被称为复杂的物理系统,全球变暖的现状和未来,全球变暖的物理基础和科学简史,两位气候学家是如何基于基础物理理论建立了预测全球变暖的模型,以及检测和归因人类活动导致全球变暖的方法.
作为支撑高超声速飞行器协同作战的关键技术之一,高超声速飞行器协同制导技术具有重要的研究价值。结合高超声速飞行器的独有特性,总结了高超声速飞行器协同制导问题的特点,明确了其与传统飞行器协同制导问题的差异。对传统导弹协同制导中常见的几种制导方法进行了介绍,简述了其技术要点,分析了其应用于高超声速飞行器协同制导时的差异性与难点。从早期概念研究、中制导阶段、末制导阶段三个部分分别对高超声速飞行器协同制导方
针对传统深度强化学习在求解无人机自主避障与目标追踪任务时所存在的训练效率低、环境适应性差的问题,在深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法中融入与模型无关的元学习(Model-Agnostic Meta-Learning,MAML),设计一种内外部元参数更新规则,提出了元深度确定性策略梯度(Meta-Deep Deterministi
说起四点共圆,想必大家一定都不陌生,它的诸多性质帮助我们解决了很多几何上的难题.今天要研究的托勒密定理,能让我们在四点共圆的基础上进一步深入学习,探索更多的规律.1定理的内容托勒密定理实际上出自伟大的古希腊数学家依巴谷之手,而托勒密只是从他的书中摘出.托勒密定理指出,圆的内接凸四边形两对对边乘积的和等于两条对角线的乘积.
期刊
考虑到高超声速飞行器的实时轨迹规划要求,提出了一种基于深度神经网络的实时轨迹优化方法。建立了高超声速飞行器再入阶段的轨迹优化模型,同时考虑始末位置随机、威胁区随机的情况,采用伪谱法进行离线轨迹优化,获取大量最优轨迹数据样本。以轨迹的状态量和控制量序列为输入,以当前时刻的轨迹控制为输出,建立深度神经网络模型,并基于最优轨迹数据样本库训练深度神经网络模型的参数,以获得能够预测轨迹控制输出的最佳神经网络