深度强化学习算法在智能军事决策中的应用

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：hhzzmm

【摘要】

：

深度强化学习算法能够很好地实现离散化的决策行为,但是难以运用于高度复杂且行为连续的现代战场环境,同时多智能体环境下算法难以收敛。针对这些问题,提出了一种改进的深度确定策略梯度(DDPG)算法,该算法引入了基于优先级的经验重放技术和单训练模式,以提高算法收敛速度;同时算法中还设计了一种混合双噪声的探索策略,从而实现复杂且连续的军事决策控制行为。采用Unity开发了基于改进DDPG算法的智能军事决策仿真平台,搭建了蓝军步兵进攻红军军事基地的仿真环境,模拟多智能体的作战训练。实验结果显示,该算法能够驱动多作战智

【作者】

：

况立群李思远冯利韩燮徐清宇

【机构】

：

中北大学大数据学院,北方自动控制技术研究所仿真装备部

【出处】

：

计算机工程与应用

【发表日期】

：

2021年20期

【关键词】

：

深度强化学习深度Q网络深度确定策略梯度智能军事决策多智能体

【基金项目】

：

国家部委预研项目。

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

改进CBAM的轻量级注意力模型

近几年注意力模型在计算机视觉领域取得了广泛的应用,通过在卷积神经网络中加入注意力模型,网络的性能可以显著提升。然而大多数现有的方法都专注于开发更复杂的注意力模型,以使卷积神经网络获得更强的特征表达能力,但这也不可避免地增加了模型的复杂性。为了在性能和复杂度间取得平衡,对CBAM模型进行优化提出了轻量级的EAM(Efficient Attention Module)模型。针对CBAM的通道注意力模块

期刊

卷积神经网络注意力机制目标检测

基于莱维飞行的改进简化粒子群算法

基于基本粒子群算法易陷入局部最优的不足,提出一种基于莱维飞行的改进简化粒子群算法LISPSO(An Improved and Simplified Particle Swarm Optimization algorithm based on Levy flight)。简化粒子群算法舍去更新公式中的速度项,仅由位置项控制其进化方向。在简化粒子群算法SPSO(Simplified Particle Swarm Optimization)的基础上,采用带有随机性的非线性递减惯性权重动态地更新每个粒子的位置。算法

期刊

莱维飞行简化粒子群相似度分析聚集度min-max-min

语音增强与检测的多任务学习方法研究

在许多语音信号处理的实际应用中,都要求系统能够低延迟地实时处理多个任务,并且对噪声要有很强的鲁棒性。针对上述问题,提出了一种语音增强和语音活动检测(Voice Activity Detection,VAD)的多任务深度学习模型。该模型通过引入长短时记忆(Long Short-Term Memory,LSTM)网络,构建了一个适合于实时在线处理的因果系统。基于语音增强和VAD的强相关性,该模型以硬参数共享的方式连接了两个任务的输出层,不仅减少了计算量,还通过多任务学习提高了任务的泛化能力。实验结果表明,相较

期刊

多任务学习深度学习语音增强语音活动检测

基于天空分割的单幅交通标志图像去雾算法

针对现有去雾算法应用于交通标志图像时容易产生信息丢失、色彩失真等问题,导致去雾后图像质量较低,不能很好地满足交通标志识别系统(TSRS)的实际应用需求,提出一种基于天空分割的单幅交通标志图像去雾算法。根据大津算法结合图像灰度特征得到自适应阈值实现天空区域和非天空区域的准确分割;非天空区域采取改进的暗通道先验算法去雾,引入自适应中值滤波和快速双边滤波联合的方法优化透射率,天空区域则采取直方图均衡化算

期刊

交通标志图像去雾天空分割暗通道先验直方图均衡化高斯滤波

自适应广义全变差的图像泊松去噪算法

针对医学、天文图像中的泊松噪声,基于广义全变差的图像泊松去噪模型,结合交替迭代极小化方法,提出一种自适应广义全变差的图像去噪算法。该算法利用广义交叉验证技术,使得模型中的正则化参数在算法迭代过程中可以自动更新。数值实验结果验证了该算法的有效性与可行性。

期刊

图像去噪泊松噪声广义交叉验证交替极小化

导向滤波的高光去除改进算法

为了解决传统的高光去除方法在去除图像高光时黑色像素点褪色、边缘和纹理缺失、产生伪影效应的问题,提出了一种导向滤波的高光去除改进算法。该算法通过设置第一阈值分离出图像中的黑色像素和其他像素,并采用不同方法分别估算黑色像素和其他像素的最大漫反射色度,避免黑色像素点发生褪色;利用导向滤波器对最大色度图进行了平滑处理,避免了伪影效应;在分离漫反射分量过程中,根据分母与第二阈值的关系,将滤波后图像中的像素点

期刊

高光去除导向滤波双色反射模型镜面反射漫反射

移动机器人实时采样路径重规划

针对传统采样规划算法因随机性强,在动态环境中重规划时路径质量差,抖动严重,实时优化效果不明显等问题,提出了一种利用反向生长最优快速搜索随机树的实时采样重规划算法DRT-RRT^*(Dynamic Real-Time RRT^*)。引入基于三角不等式的剪枝策略对路径进行平滑处理以减少路径拐点;提出了组合采样策略和局部终点跳动策略,将优化目标由全局路径聚焦于机器人当前位置至最近路径拐点的局部路径段,实时对执行路径段进行修正,进而提高路径质量的稳定性;在路径重规划时仅对受

期刊

移动机器人路径规划动态实时-快速搜索随机树^(*)(DRT-RRT^(*))组合采样实时重规划

自调优自适应遗传算法的WKNN特征选择方法

针对大多已有基于K近邻和遗传算法的特征选择方法中没有考虑各个特征的重要度不同,并且容易出现过早收敛,特别是局部最优解问题,提出了一种基于自调优自适应遗传算法的WKNN特征选择方法。该方法使用WKNN算法预测样本的类别,为每个特征分配一个权重来衡量特征的分类能力,然后采用自调优自适应遗传算法,对变异率、种群规模和收敛阈值进行参数调整,在迭代进化过程中搜索最优特征权重向量。为了评价该方法的有效性,与已有7种特征选择方法在5个标准数据集上进行了比较。实验结果表明,该方法是有效的,且具有较高的分类性能。

期刊

特征选择加权K近邻自调优自适应遗传算法参数调优实数编码

基于YOLOv5的违章建筑检测方法

针对无人机图像中违章建筑多为小目标且存在部分遮挡目标导致的检测速率慢、误检率高的问题,提出一种基于YOLOv5网络的违章建筑检测方法。在原来的批量标准化模块开始和结束处分别添加中心和缩放校准增强有效特征并形成更稳定的特征分布,加强网络模型的特征提取能力。用平滑处理后的KL(Kullback-Leibler)散度损失函数替换原损失函数置信度中的交叉熵,进一步提高模型的泛化性能。对YOLOv5的主干特

期刊

神经网络YOLOv5违章建筑检测批量标准化KL散度

基于无锚点机制与在线更新的目标跟踪算法

SiamRPN这种基于锚点机制的跟踪算法对目标尺度变化、剧烈形变以及旋转等问题鲁棒性不强,针对此问题提出了一种基于无锚点机制与在线更新的目标跟踪算法。提出了一种多层融合的特征提取网络,该网络能充分利用图像的结构与语义信息;采用了一种无锚点机制,使网络能够直接预测出目标区域内采样点到目标区域边界的值,有效避免了锚点机制的相关缺点;在主干网络的基础上添加了在线更新模块,利用最新的跟踪结果进行在线训练,

期刊

多层特征融合无锚点机制在线更新孪生神经网络

深度强化学习算法在智能军事决策中的应用

与本文相关的学术论文