基于强化学习的连续机器人控制算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:feng211314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的发展,连续机器人控制在实际应用中的重要性日益增加,受到学术界及工业界的广泛关注。然而,连续机器人控制任务在实际中无法精确建模,采用传统方法难以合理规划控制策略,且设计好的控制模型易于受环境干扰信号影响而导致控制效果不佳。因此,通过数据驱动方式进行连续机器人控制策略的学习成为目前的研究重点。基于策略梯度(Policy Gradient,PG)的连续空间无模型强化学习(Model-free Reinforcement Learning,RL)方法,无需构建数学模型,通过与环境交互获得奖励信息即可进行控制策略的学习,为连续机器人控制任务的策略学习提供了另一个解决途径。但是,基于PG的RL方法普遍存在训练时间长、收敛速度慢等问题。为此,本文对基于连续空间强化学习的机器人控制算法展开研究,提出一种基于群智能参数探索的策略梯度方法(PG-PSOPE),为连续机器人控制任务的策略学习提供简单且高效的RL框架。主要工作体现在以下三个方面:(1)针对基于PG的RL方法解决连续机器人控制问题时,由于动作空间探索导致的梯度估计高方差问题,本文采用参数探索替代动作空间探索方式。此外,策略探索与策略更新过程同时进行,完全取代复杂且容易陷入局部最优的策略梯度估计过程,避免复杂的梯度计算及梯度估计高方差问题,从而加快算法收敛。(2)为加快连续机器人控制策略的训练过程,本文首先将控制策略优化问题转化为基于动态环境交互的连续控制策略参数优化问题,再引入粒子群优化算法(PSO)于RL中进行策略参数探索与优化。借鉴PSO思想,通过构建初始策略参数不同的智能群体与环境进行交互,直接对策略参数进行探索与更新,无需复杂的反向传播操作,加快训练。且额外的概率性突变操作可有效缓解算法陷入局部最优的窘境,进一步加快算法的收敛与训练过程。(3)本文算法在基于MuJoCo物理引擎的Open AI集成仿真环境上,进行经典倒立摆控制与复杂程度不同的机器人运动控制任务的对比实验。结果表明所提方法的有效性及收敛速度的大幅度提升,其中训练时间提升比例高达1.92-58倍。
其他文献
护肝片是我国的国家基本药物目录中的品种,它用于治疗早期肝硬化和慢性肝炎,有显著的临床效果,药品处方包括柴胡、茵陈、板蓝根、五味子、猪胆粉和绿豆。目前护肝片的制备工艺较落后,同时产品的质量标准控制又较低,极具再次开发的价值。现阶段的护肝片制备提取工艺经过多次提取,有效成分损失较大,特别是挥发性成份和脂溶性成份;成品多为糖衣片,添加辅料增重较多,长期服用会对人体产生不良影响;同时产品质量稳定性在外观性
核磁共振(nuclear magnetic resonance,NMR)方法以其多参数、多手段以及非侵入性等优点,成为了研究表面活性剂增溶的重要手段。表面活性剂的两亲性能够使疏水有机化合物(hydrophobic organic compound,HOC)增溶,这在药物增溶、土壤修复和提高石油采收率等领域中都有重要应用。它在浓度高于临界胶束浓度(critical micelle concentra
目的:β-珠蛋白(β-globin,HBB)为血红蛋白的主要成分,既往对其功能异常的研究多聚焦于单基因遗传病镰状细胞贫血。随着核酸测序技术的发展,HBB被发现表达于红细胞之外的组织,并在血清中保持一定的水平,与动脉粥样硬化等衰老相关性疾病密切相关,但具体的功能及机制不明。健康长寿人群规避了多数衰老相关性疾病,是研究人类衰老较为理想的群体模型。本研究探讨长寿群体HBB启动子区多态性与血清HBB mR
目的:旨在探讨慢性肾脏病高血压、肾功能状态、肾小球慢性化病变评分与肾脏超声测量值之间的关系,并为通过无创超声检查、血压状态评估肾脏的功能及肾小球慢性化病理损伤程度提供依据。方法:选取2018年1月至2019年10月在厦门大学附属第一医院肾内科就诊的临床诊断为CKD,且年龄在40岁以下的共计295例患者。通过超声测量患者双侧肾脏冠状面的最大长、宽、厚、皮质厚度,利用肾脏二维体积公式计算肾脏体积并使用
河口是陆源污染物输入海洋的主要通道,受陆源径流与海洋潮汐的共同影响。研究河口处污染物的污染特征对于分析污染物的地球化学行为具有重要的意义。持久性有机污染物(Persistent Organic Pollutants,POPs)具有降解缓慢、能发生大尺度迁移的特点,是全世界范围内备受关注的一类污染物。本文以典型亚热带河-海界面九龙江河口中两类氯代POPs有机氯农药(Organochlorine Pe
植物分生组织主要包括茎尖分生组织、根尖分生组织和形成层分生组织。分生组织中存在着未分化的干细胞,它们具有自我复制能力和多向分化潜能,是植物生长发育的基础。维持茎尖、根尖和形成层干细胞的关键基因分别是WUSCHEL-RELATED HOMEOBOX(WOX)家族成员中的 WUS、WOX5和WOX4。果糖-1,6-二磷酸醛缩酶(Fructose-1,6-bisphosphate aldolase,FB
对于输入饱和的多智能体系统,区域一致性控制是一个新兴问题。在此问题中,针对无法实现全局或半全局一致性的多智能体系统,通过设计一致性算法实现其在某一有界集合内的区域一致性,使该集合可以作为系统一致性域的一个估计。通过降低算法的保守性,扩大一致性域估计。本文利用图论、矩阵论、集合论等相关工具,对具有输入饱和的多智能体系统的区域一致性问题展开研究。本文主要工作如下:(1)实现了具有输入饱和的多智能体系统
背景:侵袭性真菌感染(IFI)是造血干细胞移植、实体器官移植等免疫功能低下患者发病和死亡的重要原因。近年来由于移植手术开展的增加,移植相关的IFI发病率随之上升。针对高危患者预防性使用抗真菌药物可有效降低IFI的发生,但不同抗真菌药对IFI的预防效果和安全性各有差异,本研究旨在采用网状Meta分析的方法,对7种抗真菌药(氟康唑、伊曲康唑、泊沙康唑、伏立康唑、米卡芬净、卡泊芬净、两性霉素B或其脂质体
基因组学和后基因组学研究表明,植物细胞氧化还原状态是由一个复杂的遗传网络控制的。已有的研究表明,过氧化氢酶(Catalase,Cat)是最重要的抗氧化酶之一。Cat广泛存在于生物体内,主要功能是清除植物细胞内光呼吸、线粒体电子传递及脂肪β-氧化等过程中产生的过氧化氢(H2O2),从而保护植物细胞免于H2O2的毒害。近年来研究还表明通过提高植物体内抗氧化酶活性,增强抗氧化代谢水平,可以提高植物自身的
本文基于有限元数值模拟计算的方法,对机械加工模型的天然气喷嘴和燃油喷嘴开展了三维流场的数值模拟研究工作,并在技术指标的要求下,结合实验数据验证了数值模拟的可靠性。然后采取相同的仿真方案,对3D打印模型的天然气喷嘴和燃油喷嘴在相关压力点工况下的流场分布状况及性能参数进行了数值模拟研究。本文主要的研究内容如下:(1)对机械加工模型的天然气喷嘴在8个压力点工况下的流场分布状况以及性能参数进行了数值模拟研