论文部分内容阅读
本文将禁忌搜索算法应用到神经网络的全局搜索过程中。利用禁忌搜索的全局搜索的特点,来改善梯度下降算法的全局搜索特性,提高学习算法跳出局部极小值的能力。在此基础上,以两自由度机械臂作为研究对象,设计了基于行为控制的智能控制器。该智能控制器将强化学习算法应用于基于行为控制的机械臂控制中。通过运用基于行为控制的思想和强化学习的思想,该智能控制器具有很强的自主学习的能力,他能根据学习效果在线地调整学习策略。得到的智能控制器模型可广泛应用于智能机器人控制中的各个方向。
本文主要做了以下两方面的工作:(1)提出了一种基于禁忌搜索思想的神经网络全局优化算法(TBBP)。通过在全局范围内应用禁忌搜索算法来控制学习过程和搜索空间,使神经网络的学习算法能较好地跳出局部极小点,提高了神经网络的全局优化能力。通过对不同非线性函数的逼近,该算法对非线性函数的逼近能力有显著的提高。(2)针对两自由度机械臂的运动控制问题,设计了一种基于行为控制的智能控制器。该智能控制器采用“评价—控制”模型,并以强化学习作为学习算法。实验表明,该智能控制器能不依赖于系统模型,通过强化学习的方法,实现了对两自由度机械臂的连续控制,使其能够迅速达到目标位置。