【摘 要】
:
多智能体强化学习算法在用于复杂的分布式系统时存在着状态空间大、学习效率低等问题.针对网络环境中的资源分配问题对多智能体强化学习算法进行了研究,将Q-学习算法和链式反
【基金项目】
:
国家自然科学基金资助项目(60774076,90820302)
论文部分内容阅读
多智能体强化学习算法在用于复杂的分布式系统时存在着状态空间大、学习效率低等问题.针对网络环境中的资源分配问题对多智能体强化学习算法进行了研究,将Q-学习算法和链式反馈(chain feedback,CF)学习算法相结合,提出了Q-CF多智能体强化学习算法,利用一种称为信息链式反馈的机制实现了多智能体之间的高效协同.仿真结果表明,和已有的多智能体Q-学习算法相比,该方法具有更加快速的收敛速度,同时保证了协同策略的性能优化.
其他文献
黄河的泥沙冲刷对三门峡水利枢纽工程泄流排沙建筑物造成了严重的磨蚀。为进一步摸清磨蚀机理、减少破坏,分别采用辉绿岩铸石板、高强混凝土、环氧砂浆等抗磨蚀材料和改变水
雷公山地区苗族聚居地方的放蛊与酿鬼观念是一个对社会影响很大的文化现象。放蛊是传说有一些妇女暗中饲养毒虫,吸取毒汁,乘人不备下毒害别人。酿鬼是认为有一种鬼附体的人,
雷州半岛的乌王神是中国罕见而雷州独有的神灵,在雷州文献中虽记载不多,却备受当地人信奉。乌王神又称邬王、铭王、乌蛇大王等,其崇拜的动物应是乌蛇,这间接地透露出它曾受闽
天津市贯彻落实京津冀协同发展重大国家战略以来,全市上下认真研究落实中央赋予天津“一基地三区”城市新定位,并取得显著成效。回顾近年来天津市“一基地三区”建设总体状况
遇着一位好校长,是教师、学生及学生家长们的共同期待;而当一位好校长,则是所有校长的永恒梦想和奋斗目标。那么,好校长应具备怎样的素质?你理想中的好校长是怎样的?如何才能
人际关系是通过交往而形成的人与人之间的心理距离.大、中专学生正处于自我意识发展的上升阶段,他们的人际关系问题显得尤为突出.一方面他们表现出高涨的自我意识,产生了比较
高考是衔接高中教育与大学教育的关节。日本高考制度历经二战后几十年的发展,近年日益凸显其制度性疲劳,表现为引导基础教育和为高校选材两大功能的偏轨。基于此,文科省开始
池塘工业化生态养殖是近几年在江苏省全面推广的一种新的渔业养殖模式,它具有不污染外部环境、节约水资源、降低养殖成本、精准投饵和用药方便管理等优点。苏盛水产养殖专业
中关村大街位于北京市北三环和北四环之间。往北承接中关村北大街,坐落着两所国内著名高校北大、清华,往南承接中关村南大街,坐落两所国内名校北京理工大学和中央民族大学。
管理学是经济管理类各专业学生的一门集应用性和实践性为一体的专业基础课程。案例教学是成功的经济管理类课堂教学中的一个不可或缺的重要组成部分。本文对管理学课堂教学中