基于强化学习方法的多成品率衰变生产系统维护策略研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:haorui524
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在制造业系统中,设备的状态会由于疲劳、磨损、老化等原因发生衰变。运行状态衰变的设备会导致产品质量的下降以及生产成本的提高。维护行动如检测、修理或更换可以防止设备在较差的状态下运转。可是,过度的维护又会造成生产的中断、增加设备停机时间和系统维护成本。因此,制定合理的设备维护策略对制造业系统非常重要。尽管国内外的许多学者已经从多个角度对生产系统中的设备维护问题进行了大量的研究,然而,与产品质量管理相关的主题却很少在文献中提及。在现实生产系统中,设备的状态往往会影响其产品质量水平,存在多成品率质量问题,即设备随着其状态的恶化会以较高的概率生产次品。因此,可以依据产品质量检测数据对设备状态进行推断,确定最优维护策略。近年来,流水线系统设备维护策略的研究吸引了学者们越来越多的关注,尤其是由上、下游两台串行设备和一个中间库存缓冲区组成的两设备流水线系统,简称2M1B系统。然而,大部分研究工作都是基于较强的假设条件,例如,生产时间和维护时间是单位时间,维护资源充足并随时可以获取等。依据上述假设条件进行的维护决策缺乏现实依据。因此,本文以具有多成品率质量问题单台衰变设备的预防维护策略研究为基础,尝试分析2M1B流水线系统中衰变设备的预防维护策略,并进一步探讨有限的维护资源对预防维护策略的影响。最后,改进研究中使用的模型求解方法。主要研究内容和成果如下:(1)针对具有多成品率质量问题的单台衰变设备提出一种预测维护方法,主要通过两个阶段实现。首先,利用一个连续时间、离散状态半马尔科夫模型描述设备的衰变过程,采用基于策略迭代的强化学习方法求解该模型并获得基于设备观测状态的维护策略。之后,应用学习到的维护策略重新仿真系统模型估计未来的维护时间。通过算例分析发现,设备未来的维护时间随着生产产品总数的增加而下降,同时在给定生产产品总数的前提下也会随着次品数的增加而下降。而且,不断增加的维护次数也会引发维护时间的提前。(2)在单台衰变设备维护策略研究的基础上,分析2M1B流水线系统中衰变设备的维护策略。建立两Agent半马尔科夫决策过程模型描述系统中设备的衰变过程。提出一种分布式多Agent强化学习方法,即costs-sharing-RL方法求解该模型。以最小化系统长期期望平均成本率为目标,考虑每个智能体所做的局部决策与全局最优目标之间的联系,获取系统最优的维护策略。(3)进一步,思考在维护资源有限情况下2M1B流水线系统中衰变设备的维护策略。假设有限的维护资源导致设备的不完美维护,建立连续时间、离散状态半马尔科夫模型描述设备的衰变过程。采用基于资源受限的分布式多Agent强化学习方法,即RC-costs-sharing-RL方法求解该模型。通过2M1B流水线系统的数值实例证明RC-costs-sharing-RL方法优于其他两种方法如sequential PM方法及independent-RL方法,并可以获得系统最优的维护策略。(4)从实际应用的角度出发,以2M1B流水线系统衰变设备维护问题为背景,提出一种启发式加速的多Agent强化学习方法,即HAMSL方法。目标是在最小化系统平均成本率的前提下,利用启发式函数提高多Agent强化学习方法的学习效率。实验结果表明提出的HAMSL方法的学习效率要优于一些基于传统启发式搜索技术的强化学习方法,如ε-贪婪多Agent强化学习方法、邻域搜索多Agent强化学习方法、模拟退火搜索多Agent强化学习方法及禁忌搜索多Agent强化学习方法。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本文分析了跨境数字产品交易税收征管面临的主要问题,包括难以确定征税对象与征免界限、税收管辖权冲突易导致重复征税、难以进行税务登记、税款征收困难、征纳双方信息不对
将报废产品进行拆卸是实现回收再利用的必要步骤,是产品全生命周期的重要组成部分。对报废产品拆卸过程进行规划能够缩减拆卸作业成本,提高拆卸作业效率,增强企业竞争力。产
冠心病是当今威胁人类中老年健康的疾病之一,也是造成人类死亡的首要原因。因此,预防和治疗冠心病,降低其发病率,已受到世界各界的关注。此病的主要原因是随着社会的发展,生活水平
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
随着我国社会和经济的高速发展,对煤矿资源的需要量不断增加,各种煤矿采煤工程越来越多。由于煤矿开采的特殊性,开采环境比较复杂,一旦安全控制工作没有做到位,就会导致安全
为克服一些AUV矢量推进方式存在的作动器外置、自由度冗余等缺点,提出一种基于少自由度并联机构、作动器内部布置、满足两自由度矢量推进的结构方案.方案采用RS+2PRS并联机构