不确定工业过程运行指标异步更新强化学习决策算法

来源 :自动化学报 | 被引量 : 0次 | 上传用户:bbcr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
运行指标决策问题是实现工业过程运行安全和生产指标优化的关键.考虑到多运行指标决策问题求解的复杂性和工业过程生产条件动态波动引发生产指标状态的不确定性,提出了一种策略异步更新强化学习算法自学习决策运行指标,并给出算法收敛性的理论证明.该算法在随机自适应动态规划框架下,利用样本均值代替计算生产指标状态转移概率矩阵,因此无需要求生产指标状态转移概率矩阵已知.并且通过引入时钟和定义其阈值,采用集中式策略评估、多策略异步更新方式用以简化求解多运行指标决策问题,提高强化学习的学习效率.利用可测量数据,自学习得到的运行指标能够保证生产指标优化,并且限制在规定范围之内.最后,采用中国西部某大型选矿厂的实际数据进行仿真验证,表明该方法的有效性.
其他文献
为探究火锅底料常用干辣椒色泽、香气和辣味的差异,采用液相色谱-质谱联用仪(HPLC-MS)、色差仪及气相离子迁移谱(GC-IMS)等检测仪器,对11种不同干辣椒进行感官品质数字化评价。结果表明,魔鬼椒辣椒碱含量最高,为8.07 g/kg,二荆条辣椒含量最低,为0.39 g/kg;二荆条辣椒红色素含量最高,为27.01 mg/g,灯笼椒辣椒红素含量最低,为10.03 mg/g;子弹头辣椒挥发性物质种
针对低照度条件下采集到的图像存在亮度偏低、细节模糊等问题,通过分析传统Retinex理论在增强图像过程中的缺陷,提出了一种基于梯度稀疏和多尺度变分约束的图像增强算法。该算法首先将输入图像由RGB空间转换到HSV空间,提取亮度分量,实现3个通道的解耦合。然后根据零范数的梯度全局显著特性,定义了一个新的相对全变分正则项。接着在HSV空间下惩罚亮度分量,构建一种具有梯度稀疏的变分模型对亮度通道进行约束,
高抗冲聚苯乙烯(HIPS)以其优异的力学性能在高分子塑料领域发挥着重要作用,短短数年内其生产量已直逼传统的丙烯腈-丁二烯-苯乙烯共聚物(ABS)聚合物树脂。作为一类优异的聚合物树脂材料,HIPS在工程(特别是电器和计算机)材料领域表现出巨大的优势:具有良好的尺寸稳定性;耐热性强,具有良好的冲击韧性强度;易加工,可以通过添加合适的填料来开发新型功能型材料等。然而,基于科技创新化发展,电子产品的发展日
自动决策算法既属于专业技术,又具有赋能属性,可以和既有技术相结合催化新的应用技术和场景。与之相应,立法认识论既要注意到自动决策算法作为科学技术内含的伦理性风险,同时也需要识别不同应用场景中的复数价值以及利益冲突。为了规范内生性科技风险,立法应当根据风险程度强化对算法活动的程序性控制,确立记录和报告义务,细化算法风险评估规则,完善以个人信息保护负责人为核心的二元监管体系。为了管控因赋能导致的衍生性应
社会发展对于人才的需求量不断增加,这对我国教师教育提出了新的要求,为此,教育体制需要针对教学效果和教师的教育水平进行多方面改革,思考幼儿教师的一体化培养问题。本文将围绕学前教育职前职后的现状进行分析,在对教师教育一体化培养的基础上,探讨我国幼儿教师教育一体化实施的必要性,并提出相应的实施策略。
为了提升我国学前融合教育质量,促进学前融合教育师资队伍建设,探析幼儿园教师的融合教育素养职前培养是必经之路。对美国幼儿园教师融合教育素养的内涵、专业标准、职前培养的课程体系及培养模式进行深入探析,可以为进一步提升我国幼儿教师的融合教育素养职前培养质量提供启示与借鉴。