【摘 要】
:
由于深度学习在人工智能领域的流行,神经网络模型已被广泛应用于强化学习、模仿学习或元学习问题中。在这些机器学习问题中,策略通常是由经过强化学习、模仿学习算法或元学习
论文部分内容阅读
由于深度学习在人工智能领域的流行,神经网络模型已被广泛应用于强化学习、模仿学习或元学习问题中。在这些机器学习问题中,策略通常是由经过强化学习、模仿学习算法或元学习框架训练后的神经网络表示。然而,由于缺乏明确的规划运算,这种网络形式的策略本质上是仍是反应式的。针对这一问题,本文提出了多种基于规划网络模型的机器学习算法,并分别在完全可观察的马尔科夫决策过程、部分可观察的马尔科夫决策过程,以及元学习框架中进行研究和分析。主要研究内容可以概括为以下三个部分:(1)广义值迭代网络是一个应用于完全可观察的马尔科夫决策过程的规划网络模型,该网络中所涉及的值迭代过程并没有根据状态的重要性来合理分配每个状态所需的规划时间,这一定程度上降低了网络的规划性能及泛化能力。因此利用基于状态的异步更新方法,提出广义异步值迭代网络,使得新的网络在规划时,能够对每个状态所需的规划时间进行合理的分配。其次,广义值迭代网络所用的训练算法为情节式Q学习算法,其中仍存在着与Q学习中相同的值过高估计的问题。因此将加权双估计器的思想与情节式Q学习结合,提出情节式加权双Q学习算法,以尽可能地减少值过高估计对训练性能的影响。最后,提出了一种新型图形卷积算子,该算子可有效弱化任务内部图形结构中节点的度的分布对规划结果的影响,进而提高网络的规划性能。(2)QMDP-net是一个应用于部分可观察的马尔科夫决策过程的规划网络,该网络使用QMDP算法来近似解决部分可观察的马尔科夫决策过程,而QMDP的内部机制使用了值迭代算法,这使得QMDP-net的规划过程存在着与广义值迭代网络相似的问题。因此利用异步更新的思想,在QMDP-net规划模块中嵌入一种基于部分可观察环境的异步更新方法,并以此提出一个新的循环策略网络。此外,由于QMDP算法会假设智能体当前置信状态的不确定性在其执行了下一个动作之后就会消失,这就意味着规划网络生成的策略无法作用于那些需要重复收集信息的任务域,从而造成网络划性能的下降。因此利用了复制的Q学习算法来部分替代QMDP算法,并由此提出一个能更好的在部分可观察环境中进行规划的循环策略网络。(3)MAML是一个应用于元学习的规划网络,该框架基于元强化学习特性,通过梯度下降使得网络中的参数能够利用智能体之前的所执行过的策略和轨迹持续地进行训练,以此快速适应于不同的新任务中并规划出有效的策略。由于MAML的元更新过程需要通过梯度下降来估计二阶导数,这一定程度上降低了算法的训练稳定性和泛化性。因此对MAML中的元更新过程进行了改进提并出一种新的元学习算法框架。新框架能更好地执行元优化过程,从而使得最终生成的策略具有更好的泛化能力。
其他文献
目的:了解南充市中心医院急性脑梗塞的救治情况,通过改进绿色通道流程等措施提高南充市中心医院静脉溶栓率从而减少急性缺血性脑卒中致残率致死率,努力建立畅通的川东北地区急性缺血性脑卒中急救网络。方法:对照组为南充市中心医院2016年1月1日-2017年12月31日溶栓的急性脑梗塞患者,溶栓地点为神经内科,于2018年1月1日启动绿色通道流程改进程序,然后将2018年11月之前在神经内科溶栓的急性脑梗塞患
研究目的研究2型糖尿病(Type 2 diabetes mellitus,T2DM)患者血粘度、红细胞变形能力(Erythrocyte deformability,ED)、红细胞聚集性(Erythrocyte aggregation,EA)与糖化血红
调度问题在实际生产环境中运用广泛,随着我国制造业近年的迅猛发展,制造业生产环境趋于多样化和复杂化,从生产实际中抽象出来的批调度问题也越来越复杂。本文研究了差异容量
胡桐泪(Resina Populi)是一种来源于杨柳科(Salicaceae)植物胡杨(Populus euphratica)分泌的天然树脂。胡杨是沙漠珍贵的森林资源,具有抗热、抗干旱、抗盐碱的特性,分布于我国内蒙古西部,甘肃,青海,新疆等地。胡桐泪为少数用药和维吾尔医用药,最早记载于《唐本草》描述其特点为胃咸苦、性大寒、无毒、入胃经,主治咽喉肿痛、结核炎、十二指肠溃疡等疾病。我们课题组长期从事传
慢阻肺作为一种慢性呼吸系统疾病,具有全球性患病率和死亡率都较高的特征,给个人、家庭、社会造成了沉重的负担。随着经济的发展医疗技术的进步,很多疾病的病发率随之降低,慢阻肺病的病发率和死亡率却只上不下。这极大影响了慢阻肺病患的身心健康,目前市面上没有任何一款氧疗仪是完全针对慢阻肺病患者设计的,现有市场存在的几大品牌制氧机或多或少可以满足病患的吸氧需求,但在患者中晚期呼吸能力下降时,必须匹配辅助呼气的呼
图像描述作为融合自然语言处理和计算机视觉的新兴交叉研究方向,旨在实现对图像高层语义内容的理解,利用计算机自动给出关于该图像的文本描述,在帮助视觉障碍人员理解图像内
无铁芯永磁同步直线电机(permanent magnet synchronous linear motor,PMSLM)无需中间传动结构,可直接将电能转换为直线运动机械能。这类PMSLM具有无齿槽效应、高动态响应、
水稻是我国的重要粮食作物和工业原材料,水稻机械化种植是改造传统农业的重要途径之一,它既有利于提高工作效率,也有利于提高水稻产量,是促进农业现代化和社会经济持续发展的
随着各种作为生长促进剂使用的常规抗生素的被禁用,家禽生产者越来越担心会失去预防和治疗动物疾病并且具有生长促进作用的有效药物。因此,人们必须找到同样具有预防疾病并且
钢管混凝土拱桥作为一种在大、中跨桥梁领域具有一定优势的桥型,在我国有着十分广阔的应用前景。据统计,我国有很多钢管拱桥服役年限已超过30年,在服役期间受到各种不利因素的影响,导致吊杆和拱肋等关键构件发生损伤,严重影响桥梁的安全性能。为了研究钢管拱桥在关键构件损伤后其吊杆索力和系梁挠度的变化规律,掌握桥梁的健康状况,本文拟对钢管拱桥的吊杆和拱肋损伤进行分析研究。以曹妃甸矿石码头某栈桥为研究对象,采用有