论文部分内容阅读
智能化空战是实现智能化军事作战的突破口,成为近年来军事领域的研究重点。作为智能化空战的重要组成部分,空战智能机动决策是各军事强国争相开展的研究内容。论文以近距空战中的飞行器机动为应用背景,以深度强化学习技术为智能化手段,对近距空战中的飞行器引导智能机动决策、一对一近距空战博弈飞行器智能机动决策、多飞行器冲突消解智能机动决策等关键技术进行研究,主要工作及贡献如下:(1)针对通用强化学习算法解决动态有方向约束目的地飞行器引导问题时存在的飞行轨迹差、训练效率不高问题,提出了奖励重塑与策略重用相结合的飞行器引导智能体训练方法,在完备的飞行器引导任务中训练实时、准确生成机动决策的智能体,满足飞行器机动决策智能化生成的基础需求。首先,描述了飞行器引导问题,设计了强化学习训练环境与智能体。其次,从指令连续性和目的地相对姿态两个维度设计了奖励重塑函数,提升智能体训练效率和飞行器飞行轨迹质量。仿真实验结果表明,在不同类型的引导任务中,与通用强化学习算法相比,使用指令连续性奖励重塑函数可以提升有人飞行器飞行轨迹质量,相对姿态奖励重塑函数可以提升智能体训练效率。使用强化学习方法训练的智能体具有较高的计算效率,可分别在3ms和1ms的时间内生成有人机引导指令和无人机控制指令。最后,设计了基于预训练和基于目的地姿态预测两种策略重用方法,一定程度上解决了强化学习在飞行器引导任务中泛化能力差的问题,提升了不同移动模式目的地场景中智能体的训练效率。仿真结果表明,两种算法均可加快新智能体的收敛速度,当新任务与基线任务相似度较高时,基于预训练的策略重用方法表现更好;基于目的地姿态预测的方法受任务相似度影响较小,在不同任务中表现稳定。(2)针对一对一近距空战博弈中对手策略不确定、机动决策过程复杂的问题,提出了博弈场景中飞行器智能机动决策生成方法,可以在不确定对抗性环境中实时生成攻防兼备的机动决策,提升了智能对抗中应对高水平对手的机动决策能力。首先,描述了一对一近距空战机动博弈问题,介绍了双方飞行器的优势态势区域及不同的攻防态势关系,构建了一对一近距空战的二人零和博弈模型。其次,分析了使用离散的值函数方法求解空战博弈问题的可行性,提出了强化学习和马尔科夫博弈相结合的极大极小深度Q网络算法,在对手是理性策略的情况下,求解近似均衡策略,并通过仿真实验进行了验证。最后,提出了交替冻结自博弈智能体训练方法,在博弈对抗中交替训练双方智能体;采用联赛制的方法,在多个智能体中选择性能期望最优的智能体。仿真结果表明,在与随机智能对手的仿真对抗中,最优智能体的胜率可达40%以上,失败率在30%以下,胜负比达到了1.65。使用该方法训练的智能体具有较高的计算效率,可在3ms的时间内生成一条机动决策。与已有算法进行仿真对抗,该方法表现优异,关键指标胜率和不败率均优于对手。(3)针对军航飞行器与空域内民航飞行器,以及军航飞行器之间的冲突检测与消解问题,提出了基于有限管制次数的多飞行器冲突消解方法,可快速生成不同管制次数的高成功率冲突消解方案,为管制员提供高效、高质量的辅助决策。首先,描述了空域内冲突检测与消解问题,介绍了消解冲突的主要手段。其次,基于“行动者-评论者”架构,设计了冲突消解智能体,以空域内各飞行器的飞行计划为输入,输出空域内带有方向约束的位置作为新进入空域飞行器的下一途经点。再次,设计了基于有限管制次数的强化学习训练方法,通过设置冲突消解方案需要管制的次数,灵活应对不同的冲突消解场合。该方法可在200ms之内生成冲突消解方案,冲突发生率在1%以下。然后,提出多个智能体协同方案生成的方法,有效地缓解了冲突发生率不能完全降为零的问题。最后,提出基于冲突消解智能体的多机协同空战智能体训练方法,并进行双机协同空战仿真实验,该方法可以在训练前期避免友方飞行器发生冲突,提升双机协同空战智能体训练效率。研发了飞行器引导与博弈智能仿真系统,支持强化学习智能体的训练和应用,满足飞行器智能仿真的需求。基于开放、可扩展的仿真架构,开发了支持强化学习智能体接入的仿真接口,通过训练配置、训练管控和智能体演示对智能仿真全过程提供支持。在该系统上训练了舰载机进近引导智能体和水平面内一对一空战引导智能体,并进行了可视化验证。仿真结果表明,该系统支持使用强化学习算法训练高水平的机动决策智能体,并可直观展示飞行器飞行轨迹,促进了飞行器智能机动决策算法的落地应用。