近距空战飞行器智能机动决策生成研究

来源 :四川大学 | 被引量 : 0次 | 上传用户:Lance1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能化空战是实现智能化军事作战的突破口,成为近年来军事领域的研究重点。作为智能化空战的重要组成部分,空战智能机动决策是各军事强国争相开展的研究内容。论文以近距空战中的飞行器机动为应用背景,以深度强化学习技术为智能化手段,对近距空战中的飞行器引导智能机动决策、一对一近距空战博弈飞行器智能机动决策、多飞行器冲突消解智能机动决策等关键技术进行研究,主要工作及贡献如下:(1)针对通用强化学习算法解决动态有方向约束目的地飞行器引导问题时存在的飞行轨迹差、训练效率不高问题,提出了奖励重塑与策略重用相结合的飞行器引导智能体训练方法,在完备的飞行器引导任务中训练实时、准确生成机动决策的智能体,满足飞行器机动决策智能化生成的基础需求。首先,描述了飞行器引导问题,设计了强化学习训练环境与智能体。其次,从指令连续性和目的地相对姿态两个维度设计了奖励重塑函数,提升智能体训练效率和飞行器飞行轨迹质量。仿真实验结果表明,在不同类型的引导任务中,与通用强化学习算法相比,使用指令连续性奖励重塑函数可以提升有人飞行器飞行轨迹质量,相对姿态奖励重塑函数可以提升智能体训练效率。使用强化学习方法训练的智能体具有较高的计算效率,可分别在3ms和1ms的时间内生成有人机引导指令和无人机控制指令。最后,设计了基于预训练和基于目的地姿态预测两种策略重用方法,一定程度上解决了强化学习在飞行器引导任务中泛化能力差的问题,提升了不同移动模式目的地场景中智能体的训练效率。仿真结果表明,两种算法均可加快新智能体的收敛速度,当新任务与基线任务相似度较高时,基于预训练的策略重用方法表现更好;基于目的地姿态预测的方法受任务相似度影响较小,在不同任务中表现稳定。(2)针对一对一近距空战博弈中对手策略不确定、机动决策过程复杂的问题,提出了博弈场景中飞行器智能机动决策生成方法,可以在不确定对抗性环境中实时生成攻防兼备的机动决策,提升了智能对抗中应对高水平对手的机动决策能力。首先,描述了一对一近距空战机动博弈问题,介绍了双方飞行器的优势态势区域及不同的攻防态势关系,构建了一对一近距空战的二人零和博弈模型。其次,分析了使用离散的值函数方法求解空战博弈问题的可行性,提出了强化学习和马尔科夫博弈相结合的极大极小深度Q网络算法,在对手是理性策略的情况下,求解近似均衡策略,并通过仿真实验进行了验证。最后,提出了交替冻结自博弈智能体训练方法,在博弈对抗中交替训练双方智能体;采用联赛制的方法,在多个智能体中选择性能期望最优的智能体。仿真结果表明,在与随机智能对手的仿真对抗中,最优智能体的胜率可达40%以上,失败率在30%以下,胜负比达到了1.65。使用该方法训练的智能体具有较高的计算效率,可在3ms的时间内生成一条机动决策。与已有算法进行仿真对抗,该方法表现优异,关键指标胜率和不败率均优于对手。(3)针对军航飞行器与空域内民航飞行器,以及军航飞行器之间的冲突检测与消解问题,提出了基于有限管制次数的多飞行器冲突消解方法,可快速生成不同管制次数的高成功率冲突消解方案,为管制员提供高效、高质量的辅助决策。首先,描述了空域内冲突检测与消解问题,介绍了消解冲突的主要手段。其次,基于“行动者-评论者”架构,设计了冲突消解智能体,以空域内各飞行器的飞行计划为输入,输出空域内带有方向约束的位置作为新进入空域飞行器的下一途经点。再次,设计了基于有限管制次数的强化学习训练方法,通过设置冲突消解方案需要管制的次数,灵活应对不同的冲突消解场合。该方法可在200ms之内生成冲突消解方案,冲突发生率在1%以下。然后,提出多个智能体协同方案生成的方法,有效地缓解了冲突发生率不能完全降为零的问题。最后,提出基于冲突消解智能体的多机协同空战智能体训练方法,并进行双机协同空战仿真实验,该方法可以在训练前期避免友方飞行器发生冲突,提升双机协同空战智能体训练效率。研发了飞行器引导与博弈智能仿真系统,支持强化学习智能体的训练和应用,满足飞行器智能仿真的需求。基于开放、可扩展的仿真架构,开发了支持强化学习智能体接入的仿真接口,通过训练配置、训练管控和智能体演示对智能仿真全过程提供支持。在该系统上训练了舰载机进近引导智能体和水平面内一对一空战引导智能体,并进行了可视化验证。仿真结果表明,该系统支持使用强化学习算法训练高水平的机动决策智能体,并可直观展示飞行器飞行轨迹,促进了飞行器智能机动决策算法的落地应用。
其他文献
随着万物互联时代的到来,物联网技术得到了前所未有的发展。以窄带物联网为代表的低功耗广域覆盖技术应运而生,同时也成为了智能电网进一步发展的强大动力。然而在面向电力井盖和电力管廊等应用场景中的电力监测时,如何延长终端的使用寿命依然是一个难题。虽然这类监测所获取的数据量较小,但电力监测终端分布范围广且所处的地理环境复杂多样,往往难以更换监测终端的电池,从而限制了终端的生存期。因此,在电力监测场景下,研究
(兽医硕士)学位论文加味黄连解毒散稳定性及对母猪便秘的临床疗效研究研究生姓名李渔欢校内指导教师张明军副教授校外指导教师谭胜国教授专业名称兽医硕士二〇二〇年六月分类号S85
学位
目前,韧性理论已经成为城市可持续发展的新议题,特别是对于灾后重建地区。韧性理论提出要与具有高度不确定性外部环境共生共荣,是灾后地区应对危机和高风险挑战的重要理论视角。本文在系统回顾韧性理论的概念产生、演进方向和研究实践的基础上,阐明从环境、社会、经济全方位的角度对灾后地区进行韧性城市构建的必要性。并以四川省芦山县灾后重建为例,借鉴国外韧性城市构建的相关经验,基于芦山
学校代码:10205研究生学号:Q2201900112分类号:G25密级:公开硕士学位论文地方高校智库服务学科建设策略研究——以C校为例ResearchontheConstructionStrategyoftheServiceDisciplineofThinkTanksinLocalColleg
学位
分布在中国新疆伊犁河谷等地的野杏是第三纪暖温带阔叶林的孑遗植物群落,分布区域广阔,具有庞大的实生群体和丰富的遗传多样性。建立适合杏流式细胞术检测体系,探讨新疆野杏的倍性和DNA含量,为杏属植物基因组学和遗传进化研究提供基础数据。合适的细胞核解离液是流式细胞术能否成功的主要影响因素,而不同植物的渗透压和内含物不同等因素会造成其最适缓冲液不尽相同。对10种常用的解离液进
争位代B10445学号2019302431分类号G622.3硕士专业学位论文菏泽面塑在初中美术社团活动中的开发与实践研究ResearchontheDevelopmentand?
学位
针对多微电网市场新能源出力不确定性以及参与主体间利益关联与冲突导致的市场运行风险大、效率低等问题,提出基于卷积神经网络与长短时循环记忆网络(GCN-LSTM)时空预测算法的多微电网市场主从博弈均衡优化策略。首先,从时空维度设计了基于深度强化学习算法的多微电网两阶段主从博弈均衡运行机制;然后,将多微电网市场中竞价主体间的相互作用构建两阶段滚动优化模型,根据决策阶段要求
分类号:____________密级:______________UDC:____________单位代码:______________硕士学位论文论文题目:基于协同学理论的孟中印缅经济走廊反恐合作研究学号:_________________________作者:_________________________专业名称:___________
学位
在各种电子产品中,电源管理芯片起着必不可缺的作用;反激变换器是隔离电源中应用较多的电路拓扑,常用于小功率场景;反激变压器在工作过程中储存能量,变压器制造中气隙值较大,导致反激变换器效率变低。本文围绕如何提升原边反馈反激变换器系统效率,从三方面开展了研究工作:(1)所设计的原边反馈反激变换器控制芯片,通过采样辅助绕组电压信息,调节输出电压稳定,相对副边反馈调节,本文系
幼儿心理学是中职学前教育专业最重要的专业理论课程之一,也是幼儿教师应具备的基本素养。幼儿心理学课程知识丰富、复杂且抽象,学生学习起来面临诸多困难,这就要求教师在教学过程中要不断总结经验,创新教学模式,从而提高中职幼儿心理学课堂教学质量,进而为培养高素质幼儿教师奠定基础。本文主要阐述3D 3S教学模式在中职幼儿心理学课堂中的实践应用。