基于节点生长k-均值聚类算法的强化学习方法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:augustS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
处理连续状态强化学习问题,主要方法有两类;参数化的函数逼近和自适应离散划分.在分析了现有对连续状态空间进行自适应划分方法的优缺点的基础上,提出了一种基于节点生长k-均值聚类算法的划分方法,分别给出了在离散动作和连续动作两种情况下该强化学习方法的算法步骤.在离散动作的Mountain-Car问题和连续动作的双积分问题上进行仿真实验.实验结果表明,该方法能够根据状态在连续空间的分布,自动调整划分的精度,实现对于连续状态空间的自适应划分,并学习到最佳策略.
其他文献
文章通过对机械创新设计人才培养的思考,从教育思想、教学务件、教学方法等方面阐述了建立创新教学模式的一些观点.
文章阐述了传动机械引起的电机振动采用附加系统的方法,使之振动减弱,并从理论上进行分析论证,据此提出了附加系统的结构及安装方式,对参数的选择进行了探讨,得到一个比较实
1932年底。红四方面军在川北取得立足之地,着手开创川陕根据地。蒋介石为之震惊,策动川军联合进剿,又急电陕军入川。在这个关键时刻。红四方面军与杨虎城的第十七路军达成互不侵
研究了无线传感器网络中产生的分布式数据流的过滤技术.在传感器网络中,传感器感知到的是无限、连续、实时、快速的数据.然而,在一些实际的应用中,由于传感器能量的有限性,传
罗舜初将军在抗战时期曾临危受命担任鲁中军区司令员兼政委,率部打击顽军,讨伐伪军,痛歼日军,在鲁中大地上演了一出出精彩的"武戏"。春夏之交,我们采访了开国中将罗舜初将军之
文章通过介绍IPv4和IPv6的技术特点、论述IPv4和IPv6应用现状及发展前景,IPv6终将代替IPv4,以适应网络时代的需要和发展.