一种新颖的多agent强化学习方法

来源 :电子学报 | 被引量 : 0次 | 上传用户:zxwlxy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种综合了模块化结构、利益分配学习以及对手建模技术的多agent强化学习方法,利用模块化学习结构来克服状态空间的维数灾问题,将Q-学习与利益分配学习相结合以加快学习速度,采用基于观察的对手建模来预测其他agent的动作分布.追捕问题的仿真结果验证了所提方法的有效性.
其他文献
[目的]为了明确河南省新乡市某肉种鸡场种鸡的发病原因.[方法]利用常规培养基,对190日龄发病种鸡的脑组织进行细菌分离与培养、生化鉴定、血清型鉴定、回归试验和药敏试验,并
本文提出了一种硬件实现网络协议解码的方法.这种方法采用基于流水线的高速并行字符串匹配结构和基于ABNF(Augmented Backus Naur Form)范式定义的高速域值合法性检查.文中还对用
摘 要:为让农民实现其土地财产权益,必须进行有关制度的改革和创新。一要实现农村土地产权与城市土地产权的对等和对接;二是适时结束单一国家垄断的征地制度,允许农村集体建设用地直接入市,形成城乡统一的土地市场;三是改革征地补偿制度,逐步以市场价为基准,给农民以充分、合理的补偿,实现其土地财产权益,以增加农民收入,推动社会主义新农村建设。  关键词:土地财产权益;分享成果;征地制度创新;新农村建设  中
苏南苏北不断扩大的经济发展差距客观上要求,以构建东陇海产业带为突破口,加快苏北经济社会大发展。鲁南地区竞争徐连地区的气氛浓厚的态势,也必然要求加大对苏鲁边界地区的扶持
中图分类号:G210 文献标识码:A   文章编号:1003—0751(2010)05—0309—02    互联网打破了传统媒体一统天下的局面。2009年,全国1/3的重大事件是通过互联网进行舆论监督引起社会关注而获得解决的。从林嘉祥到周久耕,从石首事件到杭州飙车案,等等,事件一经上网传播,就会成为关注的焦点。互联网新闻传播的出现,给新闻舆论监督带来一系列新问题,研究和解决这些新问题,成为一个重
我国公共设施因其用电量较大,一直以来就是节能战役的“主战场”。以城市公共照明为例,其在我国照明耗电中占30%,约为439亿千瓦时。但是节能和减少温室气体排放并不意味着要降低
摘 要:“教学有法,教无定法,贵在得法。”小学品德与社会课是对学生进行道德教育的主要渠道,它对于引导学生从小培养和形成良好的品德和文明行为习惯起着举足轻重的奠基作用。但是就小学品德与社会的教材及教师的实践教学来看,繁冗复杂的理论知识对于天真烂漫的小学生而言,甚是枯燥乏味,教学效果也是高耗低效。讲述了在实践教学中的几种教学方法。  关键词:课堂教学;民主讨论;角色扮演  品德与社会课作为传授学生良好
摘 要:耕地是一个典型的准公共物品,不仅给农民带来经济收益,而且为社会公众提供了大量的、具有强烈外部性的非生产性功能。这在客观上要求耕地保护不仅仅是农民的责任,更应是全社会的共同责任。从外部性理论、准公共物品理论和产权理论三个方面看,强调我国耕地保护社会责任更有其必要性。这就要求我们提高全社会耕地保护意识,分担农民耕地保护成本,建立和完善耕地保护社会责任监督机制。  关键词:耕地保护;社会责任;外
当前我国产业集群创新乏力的根源在于创新和合作意识不强,投入不足,缺乏良好的创新环境和创新人才,不重视对知识产权的保护等,致使我国的产业集群出现衰退现象.只有解决这些
新中国成立60周年之际,也是你院《中州学刊》创刊30周年之时,谨向你们表示热烈的祝贺!并向长期以来为《中州学刊》发展付出辛勤劳动的全体同志致以亲切的问候!