强化学习中的回报函数机制优化研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户：yiyan3002

【摘要】

：

【作者】

：

王州

【机构】

：

厦门大学

【出处】

：

厦门大学

【发表日期】

：

2020年01期

【关键词】

：

回报函数优化强化学习无回报函数回报函数分解

【基金项目】

：

深圳市科技创新委员会,基础研究面上项目（JCYJ20190809163009630）; 广东省科学技术厅,自然基金（2018A030313124）; 厦门大学校长基金（20720160081）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习中回报函数设计至关重要,不好的回报函数设计会导致强化学习算法收敛不稳定甚至失败。本论文以强化学习中的回报函数为研究对象,分析传统强化学习方法中回报函数的设计对训练效果影响的问题。基于深度确定性策略梯度网络（Deep deterministic policy gradient,DDPG）提出了两种优化方法。一是针对有明确目标的场景设计无回报函数机制算法RFPG（Reward Free Policy Gradient）,二是针对一般场景设计的回报函数分解算法RD3（Reward Decomposition DDPG）。两种算法在一定程度避免了回报函数设计问题。本论文设计的算法如下:RFPG算法是一种针对具有明确目标场景设计的无回报函数的强化学习算法。回报函数的制定是强化学习中非常重要步骤。但是在大量系统中回报函数并不容易制定。不同的回报函数会得到不同的结果。针对这一问题本论文首先,设计了状态量机制代替原先复杂的回报函数。接着,利用预测函数来自我迭代更新,因此RFPG算法在特定环境中可以免除回报函数的设计。最后在Frozen Lake和Cart Pole环境中成功应用该算法,且取得了良好的性能,证明了算法的有效性。但是其存在一定的适用条件,限制了算法的大范围应用。RD3算法是一种利用回报函数分解机制设计的强化学习算法。该算法通过分解回报单元之间的关联性降低回报函数设计的影响,适用于一般强化学习场景。经典强化学习算法单一的评价网络会导致回报值被错误的高估。最终导致算法在复杂的环境中应用时收敛不稳定。首先,针对一般的强化学习环境,RD3算法将回报函数分解为多个回报函数单元,提高探索性能和网络收敛速度。接着以交通信号控制系统为研究对象基于SUMO仿真环境建立具有复杂参数的模型Single Intersection。最后,针对城市交通系统的复杂性,搭建了复杂的网格状城市交通网络Grid Network。对比DDPG算法,RD3算法的收敛更快更稳定。实验结果表明,该算法能够有效的降低车辆等待时间,提高通行效率同时还能降低污染排放。本论文提出了 RFPG和RD3两种算法,目的是为了解决回报函数设计复杂且不稳定的问题。在多种实验环境中验证了两种算法的有效性,一定程度上缓解了强化学习对回报函数设计的依赖性。

其他文献

FLAIR血管高信号征与rt-PA静脉溶栓治疗急性大脑中动脉供血区脑梗死疗效的相关性分析

目的:对于急性大脑中动脉供血区脑梗死患者,FLAIR血管高信号征（FVH）可用于预测治疗风险及评估早期预后,并协助筛选符合静脉溶栓治疗的患者。本研究的目的就是分析和探讨FVH与急性脑梗死患者静脉溶栓治疗短期疗效之间的联系。方法:回顾性分析从2018年1月至2019年9月在我院神经内科住院并接受静脉rt-PA溶栓治疗的急性大脑中动脉脑梗死患者51例。所有患者均在入院24小时内完成首次颅脑MRI常规序

学位

FLAIR血管高信号征急性脑梗死静脉溶栓NIHSS评分短期疗效

初步探究梅毒螺旋体诱导单核细胞表型和功能的变化及其潜在的机制

研究背景和目的梅毒在全球的发病率高,其致病机制仍然不清。固有免疫细胞的主要组成者单核细胞在微生物的感染过程中发挥着重要作用。本研究通过分析梅毒患者单核细胞亚群分布情况及梅毒螺旋体对单核细胞功能的影响,初步探究梅毒螺旋体的致病机制。研究方法本研究采用流式细胞术检测梅毒患者和健康对照者单核细胞亚群、THP-1细胞CD14、CD16和炎症因子的表达情况;聚合酶链反应检测THP-1细胞炎症因子基因的表达;

学位

梅毒螺旋体单核细胞迁移炎性因子mTOR

灵芝酸类似物的设计合成及其抗骨质疏松和抗炎活性研究

灵芝酸是从灵芝中分离得到的一类四环三萜化合物,具有广泛的生物活性。然而灵芝酸在灵芝中含量极低,提取困难、市场价格高,这些问题限制了对其生物活性的深入研究。因此,通过化学合成的方法构建灵芝酸类似物并对其进行结构优化,获得相关疾病的候选化合物,对于该类物质的新药研发具有重要意义。针对抗骨质疏松,研究表明,灵芝酸DM及灵芝酸F等具有较好的抗骨质疏松活性,但含量稀少,难以进行深入研究。我们从实验室自有化合

学位

抗骨质疏松抗炎灵芝酸类似物

HIV阴性宿主马尔尼菲篮状菌病继发噬血细胞综合征9例回顾性分析

目的:总结人类免疫缺陷病毒（HIV）阴性宿主马尔尼菲篮状菌病（TSM）继发噬血细胞综合征（HPS）的临床特点,提高临床医生对该合并症的认识,降低误诊和漏诊发生率。方法:回顾性分析多中心在2012年8月至2019年2月收治的126例HIV阴性宿主马尔尼菲篮状菌病患者病例资料,其中9例TSM继发HPS,分析他们的临床表现、治疗及转归。结果:9例患者中,男7例,女2例,中位年龄2岁（1～41）岁,其中有

学位

马尔尼菲篮状菌噬血细胞综合征人类免疫缺陷病毒儿童

长链非编码lncRNA110289在子宫内膜异位症患者中调控子宫内膜容受性机制研究

[背景]子宫内膜异位症（内异症、EM）是育龄妇女常见难治病,患者中约有40%～50%会出现不孕症状,但其机制尚未明确。已有研究提示患者的子宫内膜容受性受损。容受性是指在植入窗口期子宫内膜允许胚胎的粘附、侵袭、植入的生物学过程状态。长链非编码RNA（lncRNA）已被证明参与子宫内膜容受性形成。但目前缺乏lncRNA与EM患者内膜容受性形成的相关报道。[目的]探索lncRNA1 10289在EM患者

学位

子宫内膜异位症长链非编码RNA竞争内源性RNA子宫内膜容受性蜕膜化

人NEK2单克隆抗体的制备与应用

第一部分NEK2蛋白的制备目的:通过原核表达系统表达人NEK2蛋白,并对蛋白表达条件进行优化,纯化NEK2蛋白。方法:1.从人HL7702细胞中提取Total RNA,逆转录成cDNA后,以cDNA为模板通过PCR扩增NEK2基因,将NEK2全长基因连接到pET30a（+）质粒上,构建pET30a（+）-NEK2载体。通过对单克隆菌的菌液进行PCR反应,对pET30a（+）-NEK2重组质粒进行B

学位

HCC标志物NEK2单克隆抗体应用

豹纹鳃棘鲈体色变异相关基因的筛选与表达分析

体色是鱼类形态多样性的特征之一,其在鱼类生长发育过程中的变化规律越来越引起人们的关注。拥有鲜红体色的豹纹鳃棘鲈深受到市场的欢迎,然而,在人工养殖过程中,豹纹鳃棘鲈幼鱼体色出现由红变黑的现象,进而造成大量的经济损失。因此,研究其“体色变化”现象的分子调控机制,不仅有助于提高我们对鱼类体色遗传的认识,同时为解决豹纹鳃棘鲈产业问题提供基础资料。本研究首先使用RNA-Seq技术对豹纹鳃棘鲈幼鱼进行了转录组

学位

豹纹鳃棘鲈体色RNA-Seq差异表达基因

去泛素化蛋白酶USP25在脑卒中的作用研究

脑卒中是全球致残率和致死率极高的心脑血管急性事件,其病理特征通常包括梗死区附近大量神经元死亡、剧烈炎症反应和血脑屏障（Blood Brain Barrier,BBB）的崩溃。脑卒中造成不可逆转性脑损伤,对患者家庭和社会都带来巨大的负担。对于脑卒中,目前仍缺乏有效的预防和治疗手段,因此寻找有效治疗靶点和药物是研究工作的重点。USP25（Ubiquitin-Specific Protease 25,U

学位

USP25脑卒中炎症反应神经胶质细胞

两种伪镖水蚤垂直移动节律的研究

浮游桡足类的垂直移动是一种普遍的生态学现象,不同种类的桡足类、生活在不同环境中的桡足类在垂直移动的模式上都可能会有不同的表现,因此,桡足类的垂直移动又具有复杂性的特征。桡足类的垂直移动可能受多种因素的影响,目前多数学者认为桡足类的垂直移动和其内源性节律有关。本研究通过应用自相关分析、傅里叶分析、最大熵谱分析、小波变换等较为前沿的生物节律分析方法,以桡足类垂直移动的上浮频次和上浮高度为指标,研究了安

学位

安氏伪镖水蚤沈氏伪镖水蚤生物节律垂直移动红外摄影熵谱分析小波变换

miRNA-19a/PTEN/AKT通路在大鼠哮喘模型中及离体人气道平滑肌中的表达变化

第一部分miRNA-19a/PTEN/AKT通路在慢性哮喘大鼠模型中的表达变化目的:miRNA-19a/PTEN/AKT通路与平滑肌细胞的表型变化相关,而气道平滑肌在支气管哮喘的病程中起到重要作用,因此本研究观察miRNA-19a/PTEN/AKT通路是否参与支气管哮喘过程。方法:（1）建立慢性哮喘大鼠模型,分为支气管哮喘组（简称哮喘组）、地塞米松组（简称地米组）,另设一组空白对照组（简称空白组）

学位

支气管哮喘miRNAAKTPTENHMGB1气道平滑肌

强化学习中的回报函数机制优化研究

其他学术论文