开放车间调度问题的深度强化学习算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:xoyo20001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
开放车间调度问题是一种典型的组合优化问题,在制造业、交通和物流等领域被广泛研究。这类问题具有复杂的约束和巨大的解空间,因此求取最优解十分困难。目前,传统算法大都基于特定规则或局部搜索的策略来获得次优解,只适用于解决特定分布的问题,具有较大的局限性。近年来,深度强化学习在解决各类复杂决策问题中展现出较强的适用性和可扩展性,因此,本文基于深度强化学习求解开放车间调度问题。论文的主要工作如下:本文设计并实现了基于演员-评论家网络的深度强化学习算法求解开放车间调度问题。首先采用构建图的策略实现开放车间调度问题输入和输出调度方案的简化。输入图能够准确描述问题的特征以及操作之间的关系,输出图能够直观反映问题的约束条件和时序关系。为了实现深度强化学习建模图结构,进一步将输出图的构建过程序列化,并且设计了动态规划算法计算方案的完工时间。然后从强化学习的角度分析开放车间调度问题的状态、动作和奖励,提出基于演员-评论家网络的深度强化学习模型框架。在研究演员网络拟合调度策略时,为了更好地探索深层次信息和表示问题模型,本工作优化了两种基于注意力机制的神经网络:指针注意力网络和图注意力网络。将提出的模型与传统算法进行比较,在随机生成的不同规模的开放车间调度问题下开展实验,实验结果验证了提出模型的有效性。为了进一步优化求解算法,本文提出了基于折扣记忆的注意力模型。通过对开放车间调度问题的特点和图注意力网络的原理进行深入分析,发现注意力机制过分关注上一步或固定几步的历史决策输出,而在复杂的开放车间调度问题中,往往某些有特殊意义的历史决策十分关键。折扣记忆同时关注时间和关联性两个方面,能够辅助注意力机制显式地建模历史决策与当前决策之间的关系。为了验证折扣记忆的有效性,展开消融实验和基线对比实验,从求解质量和计算成本两个指标进行评估,实验结果表明,增加了折扣记忆后模型效果提升显著。并且该模型在解决实时调度问题时也表现出很高的实用价值。
其他文献
实际工程系统往往都设有物理安全边界,例如流水线工业系统,风力发电系统,电力系统,高铁系统等,运行过程中系统自身状态受物理边界严格约束,以确保长期稳定可靠运行。一旦这样的物理约束装置被忽略或发生故障,系统就面临超界运行风险甚至发生重大安全事故。随着工业生产复杂化,相应的生产装置和系统的非线性特性日益凸显,系统参数不确定性也随之增加,系统控制器设计难度也随之增加。因此,针对具有参数不确定的非线性系统的
定位技术是实现移动机器人自主导航的关键技术之一。视觉SLAM是一种同时完成定位与地图构建的技术,目前得到了越来越多的应用和研究。针对视觉SLAM在一些室内场景无法有效定位的问题,通常借助自身算法框架的冗余性完成重定位。但是该方法导致了定位实时性的下降,当机器人快速移动时,这种影响尤其明显。为了避免冗余的算法框架对视觉SLAM定位实时性的影响,本文通过引入IMU来辅助视觉SLAM,实现多种工况下机器
头部运动障碍或头部下垂综合征(DHS)在许多运动神经元疾病中十分常见,患者的颈部肌肉发生退行性减弱,使得抬头或移动头部变得十分困难。目前该疾病没有较好的治疗方法,主要使用颈托设备来缓解头部下垂的症状。然而,颈托使得头部的运动受到局限,也不能按照患者想要的移动方向进行调整。因此,研究一种可以实现临床治疗、功能全面、康复机理完善、操作方便的颈椎康复机器人,对于治疗、康复头部下垂综合征有着重要意义。本文
不均衡分类问题在实际生产生活中频繁出现,如生物信息学、电信或金融风险评估和文本分类等。传统分类器由于期望整体精度最大化,常常忽略少数类(样本较少的类别)的分类精度,然而少数类的分类精度往往比多数类(样本较多的类别)更为重要。针对这一问题,一种有效的解决方法是基于数据增强将不均衡数据恢复为均衡数据。这种方法的目标是生成具有较强类判别性和多样性,且真正有助于分类器构建的少数类新样本。然而,在不均衡数据
标记分布学习是一种新的可以用来解决标记多义性问题的学习范式,是对单标记学习和多标记学习的进一步泛化,已经成功应用于人脸情感分析、头部姿态识别以及人脸年龄估计等领域。在标记分布学习的标记集合中,标记间关系广泛存在并且有助于提升标记分布学习性能。因此本文从标记间关系这一角度出发,对标记分布学习展开深入研究。首先,针对局部标记间关系展开研究。当前存在的利用局部标记间关系的算法都服从一个假设,即样本之间的
闭链连杆式移动机器人是一种具有大尺度变形能力,高越障能力的地面移动机器人。目前对闭链连杆式移动机器人的研究主要集中于论证移动的可行性,对于其移动能力及评价体系仅有较少的涉及。本文从平面6R单环运动链的理论研究出发,对平面6R单环运动链为基础构造的闭链连杆式机器人的移动进行数学建模并进行了运动学分析、动力学分析和步态规划,提出6R机器人移动理论,新理论得到了这种运动链连续移动和越障过程的步态通解,并
随着科学技术的发展,各行各业对材料以及结构的安全性要求日益提高。由于材质自身缺陷以及长期受到各种载荷的影响,材料和结构在生产及服役的过程中会产生各种类型的缺陷,比如裂纹、孔洞以及夹杂等,进而导致重大安全事故,造成人员伤亡和巨额财产损失。因此发展有效的无损检测技术至关重要。超声检测技术由于其具有灵敏度高、穿透能力强、缺陷定位准确、操作简单、对人体无害等优点被广泛应用。但是该方法针对复杂形状缺陷的定位
随着跨境贸易的快速发展,商品的协调制度(Harmonization System,HS)编码分类作为企业进出口贸易的重要海关程序,其准确性和高效性越来越受到相关部门的重视。如果能够自动、准确、高效地进行商品HS编码分类,将有助于海关部门通关查验、关税计算等工作的顺利进行,同时也可以帮助企业提高通关效率,降低通关成本。商品HS编码分类任务可以看作是一个文本分类任务,即给定商品的一段描述信息,目标是确
人脸活体检测作为人脸识别系统的重要安全保障环节,近几年在生物识别技术领域中飞速发展,广泛应用于移动支付、门禁系统和金融认证等场景。然而,人脸识别系统容易受到来自打印图像、数码图像以及回放视频等不同方式的攻击,使得人脸识别系统的安全性受到严重的威胁,所以,人脸活体检测在人脸识别系统中起着至关重要的作用,具有重要的研究价值。人脸活体检测在生物识别技术领域中是备受关注的研究方向,但目前仍存在以下几个问题
信号调制方式识别是指在未知调制信息的情况下对接收到信号的调制类型做出正确判断。通信信号调制识别不仅在民用领域意义重大,在军事及国家安全方面也都发挥着至关重要的作用,在电子战中,快速准确地判断出未知信号的调制方式是制胜的关键。在人工智能浪潮下,将机器学习算法与调制识别技术结合已经成为了发展趋势。本论文“基于机器学习的数字信号调制识别及FPGA设计与实现”主要研究基于机器学习的调制识别算法和神经网络的