基于深度强化学习的二维矩形条装箱问题求解算法

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:peng737
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二维矩形条装箱问题(Two-Dimensional Strip Packing Problem,2D-SPP):给定矩形条的宽度W固定,高度H不固定,以及一组小矩形{(w1,h1),(w2,h2),,(wn,hn)},其中小矩形宽度为wi,高度为hi,1≤i≤n,0≤hi,0<wi≤W,目标将所有小矩形放置入矩形条中,且小矩形不能旋转,小矩形之间不能重叠,并最小化矩形条的高度H。常用于求解2D-SPP的算法主要有精确算法,启发式算法。本文提出一种基于深度强化学习的2D-SPP求解算法,在智能体与环境不断交互的过程中学习策略以达到期望累计奖励最大化,即最小化矩形条的高度H。深度强化学习是深度学习与强化学习相结合的产物,本文选择基于策略的强化学习方法作为本文的强化学习算法,深度神经网络模型Pointer Networks作为强化学习算法的策略函数,随机性策略作为策略函数的输出,累计奖励的期望值作为目标函数。Pointer Networks是Seq2Seq结合改进的注意力机制后得到的模型,可以有效地处理“输出严重依赖输入”类型的问题,非常适合作为本文2D-SPP求解算法的策略函数。在训练阶段,深度强化学习通过策略梯度算法计算目标函数的梯度值,并选择Adam优化算法更新Pointer Networks的模型参数。在测试阶段,策略函数Pointer Networks通过Beam Search算法搜索装箱策略,策略函数返回的装箱策略进一步结合构造类启发式Bottom-Left-Fill算法对小矩形进行装箱。本文通过大量实验对基于深度强化学习的2D-SPP求解算法进行性能评估和测试,通过训练过程中累计奖励的期望值随训练步数的变化趋势分析算法的稳定性,通过测试过程中Pointer Networks针对测试样本返回的装箱策略分析算法的可行性,通过策略函数决策过程中输出概率分布的可视化结果分析算法的合理性。本文最后在2D-SPP的经典数据集上对本文算法效果进行验证,并与启发式搜索算法进行比较,实验表明基于深度强化学习的2D-SPP求解算法在实验结果普遍优于启发式搜索算法的同时,在求解大规模问题时,本文算法线上计算复杂度低,运行时间短,线上运行速度显著优于启发式搜索算法。本文通过实验展示了深度强化学习算法用于求解2D-SPP的可行性与优势,为今后求解装箱问题提供了一种全新的解决思路。
其他文献
非小细胞肺癌(NSCLC)是造成全球癌症死亡的主要原因,其中转移性非小细胞肺癌的5年总生存率不到5%。目前非小细胞肺癌的主要治疗手段为化疗和靶向治疗,同时研究者们也在积极探索新的治疗靶点及联合用药的策略。BET蛋白作为一种表观遗传调控因子,在人类肿瘤中发挥着重要作用,成为极具前景的肿瘤治疗药物靶点。在临床实验中,BET蛋白小分子抑制剂目前正用于治疗包括非小细胞肺癌在内的多种肿瘤,但是由于耐药问题其
原始生殖细胞(PGCs)是生殖细胞(包括精子和卵子)的前体细胞。在PGCs命运决定阶段,PGCs会受到转录因子、表观遗传重编程、细胞代谢等一系列复杂严格的调控,在生殖嵴发育成为雄雌生殖母细胞,出生后再经过分化成熟为有功能的精子或卵子。核呼吸链因子1(Nuclear respiratory factor 1,Nrf1)在细胞的内平衡、发育和代谢途径中发挥重要作用。我们的前期研究发现NRF1可以与DN
第一部分鼠尾草酚及其类似物缓解肿瘤恶病质的作用及机制研究背景:肿瘤恶病质是一种全身性进行性消耗综合征,且不能单纯通过营养支持手段逆转,临床表征主要为骨骼肌萎缩、脂肪损耗和食欲衰退导致的体重下降。目前人们对肿瘤恶病质的机制研究尚不全面,比较被认可的原因是由肿瘤分泌和机体释放的如TNF-α、IL-1、IL-6、PIF和ZAG等炎症因子共同引起,这些炎症因子可激活体内NF-κB信号通路,造成肌肉蛋白降解
作为蛋白酶体激活因子的REGγ以非泛素和非ATP依赖的方式参与蛋白水解及其降解过程,这与许多肿瘤的发生发展息息相关。mTORC1影响着细胞的生长,也是非常重要的信号通路之一。而沃伯格效应(Warburg effect)揭示了糖酵解与肿瘤细胞代谢之间的关系,因此本文探究了REGγ通过PP2Ac-mTORC1轴调控肝癌中糖酵解基因的表达,这对研究细胞的代谢机制具有重要意义。在本次研究之中我们发现了RE
细菌纤维素(Bacterial cellulose,BC)是细菌产生的一种胞外多糖,其在纤维素合成酶(Bacterial cellulose synthase,BCS)的作用下由单体吡喃葡萄糖通过β-(1,4)-糖苷键聚合而成,是天然存在的一种大分子直链多糖。细菌纤维素在化学组成上与植物纤维素相近,却有后者不具备的纳米网状结构、强吸水力、高纤维素纯度、高亲水性、高结晶度、高抗张强度和高生物相容性等
如何调制成年脑可塑性是目前神经科学研究关注的热点之一。目前对于皮层可塑性机制的了解大多来源于对视皮层的研究。已知抗抑郁药物氟西汀(一种五羟色胺再摄取抑制剂,主要用于精神类疾病的治疗)可以诱导成年视皮层可塑性,但氟西汀是否同样可以诱导听皮层的可塑性目前尚不十分清楚。本研究以大鼠为实验模型,探讨氟西汀影响成年听皮层可塑性的行为及电生理效应。结果发现:1)成年期慢性氟西汀给药未显著改变大鼠的自发活动量及
近年来,随着人民生活水平的提高,日益增长的餐厨垃圾已经成为我国城市垃圾治理亟待解决的问题。餐厨垃圾含水率高、易腐败发臭,加大了收集、转运、二次处理的难度,因此,从源头上探索餐厨垃圾的生化降解过程,是解决我国餐厨垃圾的重要途径。餐厨垃圾生化降解是利用微生物的氧化分解作用将餐厨垃圾进行就地降解的一种方法。家用型有机垃圾生物处理机可有效减量处理家庭餐厨垃圾,将有机垃圾消灭在源头,处理后残余物可作为有机肥
植物细胞壁在植物细胞的形状维持、供给细胞自身生命活动的正常进行和响应外界环境改变等方面发挥重要作用。在拟南芥花粉管极性生长过程中,新的细胞壁组分不断在花粉管顶端区域沉积以维持细胞生长,因此细胞壁组分的正常合成至关重要。植物的初生细胞壁主要是由纤维素、半纤维素和果胶等多糖形成的复杂网络结构,木葡聚糖(XyG)是最主要的半纤维素多糖,是由一系列XyG糖基转移酶参与合成的。到目前为止,关于花粉管细胞壁X
学位
角萼苔属(Ceratolejeunea)属于细鳞苔科,主要分布于热带地区,目前世界已接受的有47种1亚种。该属个体微小难以被采集,作为重要分类特征的油胞与油体又易解体,导致角萼苔属的分类鉴定比较困难,很多类群的划分颇具争议,迄今为止也没有全球范围内角萼苔属的分类修订。随着全球气候变化与生态环境的日趋恶化,全球热带雨林面积大幅减少,主要生存于热带的角萼苔属植物也备受威胁。因此,作者运用分子系统学和形