基于学习与对策的多代理协同计算

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:sese4546
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先提出了一种新的多代理在线学习算法LU-Q,该算法通过对联合行动不断地实施剪枝,减少可选行动数目,加快多代理学习的收敛.实验表明,算法学习性能优于标准多代理Q学习.在此基础上,结合MAXQ任务分解,提出UMAXQ-Q算法.MAXQ任务分解图建立任务的递进结构有利于状态及行动空间的压缩,简化学习,因此,代理协同的学习将会变得更加有效.代理通过多层次间的合作学习,最终实现最高层次上的合作.UMAXQ-Q算法可根据问题需要选择协作的层数,具有很大的灵活性,与基于顶层协作的多代理递进学习算法相比较,具有明显优点.本文通过仿真实验验证了算法的性能.考虑到代理对行动策略存在不同的偏好,通过建立代理联合行动策略域上的模糊集合,本文定义了不同决策心态及意图的策略隶属度函数,提出了代理模糊收益的概念,并提出策略学习算法-冲量最小梯度增加学习算法M-IGA.分析了其它基于微小梯度增加算法存在的问题,指出可通过在策略学习迭代中增加冲量项保证代理策略的收敛,解决了其它算法存在的问题,并给出了实验验证算法的可行性.通过将协商过程看成一个策略学习过程,并计算代理协商成功时的期望Q值函数及代理在协商各阶段上的期望收益,本文创新性地提出了基于阶段期望收益的代理单属性协商出价策略算法.在此基础上,结合经济学多属性效用理论MAUT,建立了基于强化学习的多属性协商模型,给出了多属性协商策略算法.
其他文献
近年来,几乎在各种领域都需要处理时态数据,对时态的研究也涉及很广。时态数据中包含着很多有用的信息,蕴含着许多潜在的事物发展的规律。为了进行预测,必须挖掘时态数据中隐含的
目前,远程实验教学多数是利用虚拟技术实现,但是在虚拟实验室中,实验者操纵的所有仪器设备都是数字化的对象,而非实验设备实物。因此,所获得的实验结果都是通过公式计算得到的数据
伴随着云技术的高度发展和应用,其安全性问题也受到了越来越多的关注。属性加密算法在保证数据安全性的基础上,进一步实现了对数据的细粒度访问控制,因而成为了云安全的研究热点
随着社会的发展,传统的基于信物或口令的安全系统显得越来越脆弱,不能够适应现代安全系统的需要。指纹具有唯一性和稳定性,因此被人们用来当作鉴别个人身份的主要依据。相对于其
近年来,随着图像处理技术的广泛应用和多媒体技术的快速发展,视频监控系统越来越多的应用于一些现场条件复杂的工作环境。本文是结合“宝钢冷轧连续退火炉炉内带钢状态监测系统
龙芯是由中国科学院计算技术研究所自主研制开发的一个通用芯片系列。龙芯1号是其第一个产品。在龙芯1上运行的是Linux系统,使用的编译器是GCC。GCC编译的SPEC2000程序的性能
运动控制器在工业、国防和人们的日常生活中,有着广泛的应用。然而,目前常用的运动控制器体系结构存在很多缺陷,如体积过大,不支持网络通信,硬件一旦固化则不能改变等,从而导致运动控制器之间相互孤立,系统升级过程中大量资源浪费。为了解决这些问题,本文对运动控制器的体系结构进行了研究。 本文首先分析了目前运动控制器常用的体系结构,指出了它们在体积、通信协议、灵活性方面的不足。针对运动控制器的数据安全性
随着软件成为当今社会越来越重要的一个领域,人们对开发有效的、健壮的、复杂的软件需求也日益递增。虽然,我们在计算、网络、编程语言以及软件方法学等方面取得了显著的进步,但
随着时代的发展,远程教育已日益成为传统教育的重要补充.远程教育的发展经历了广播教学,电视教学,网络教学三个阶段,其中网络教学最能代表远程教育的发展方向.在远程教育的实
随着经济的迅速发展和人民生活水平提高,人们对能源的需求逐渐增大,随之产生的能源数据存在容量多、类型杂、复杂性高等特点。因此,如何从能源数据及相关的能源设施中准确、直观