MAS环境下Agent学习的博弈策略研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:kandyyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在MAS(Multi Agent System)环境中活动的Agent总是在一个庞大的、复杂的、开放的、动态的和不可预期的环境中操作。它在任意时刻的最优策略总是依赖于其他Agent所使用的策略集合,因而成为一个学习移动目标的问题。多Agent学习不仅是分布式人工智能和机器学习(Machine Learning,简称ML)的交叉领域,而且是ML和博弈论的交叉领域。在一个竞争的环境中,一个令人满意的多Agent学习算法至少应该满足理性和收敛性。在满足这两个属性的基础上,在与公正对手进行博弈时,应尽可能的使Agent在博弈中攫取最大收益。目前,有些很好的算法以能够同时满足理性和收敛性,而另一些算法能够在与公正对手的博弈中攫取高额回报,但是却不能二者兼得。在本文中,我们详细分析了MAS中的学习环境理论模型,简要介绍了多Agent环境中学习算法应具备的属性,并分析了当前一些学者提出的算法。然后,着重考察了简单的两人两动作重复一般和博弈的策略特点,通过动态系统理论的指导,分析了使用逐步策略爬升的Agent的行为,根据S.Singh等人给出的结论,我们提出并证明了在两人两动作博弈中关于双方策略的一个推论,并使用现有博弈算法进行验证;接着,通过将该结论与增强学习算法相结合,从实用的角度考察了我们得出的结论;不仅如此,在实际中我们又将该算法的用途进一步扩展到两人三动作博弈中,并通过实验验证;然后,根据得出的结果,提出了一个新的MAS环境中的Agent学习算法ExploiterWT,该算法具备已知算法的多数优点,如:理性和收敛性;而且能够击败某些公正对手,在长期博弈中获取高额回报。我们通过一系列的实验来验证ExploiterWT算法的有效性,详细描述了实验过程的每一个细节,说明了该算法在两人两动作和两人三动作博弈中的效果是令人满意的。
其他文献
纹理合成是当前计算机图形学、计算机视觉和图像处理领域的研究热点之一。本文对基于样图的二维纹理合成技术进行了研究,提出了一些新的观点并对一些经典算法做了一定的改进,同
随着Internet的迅速发展,网上信息资源越来越丰富,网络已成为用户获取信息的必要途径和重要手段,而搜索引擎又成为用户获取信息资源的入口。但由于网络资源信息具有无组织、异构
随着我国教育理念的转变和教育改革的不断深入,教学评价成为高等学校教学质量监控体系的重要组成部分。而随着信息技术的发展,网上教学评价系统已成为高校教学评价的主要方式。
深蓝色的海洋一直是一个令人充满好奇和想象力的地方。近年来人类一直在努力探索和利用这片神秘的世界。水下机器人的出现提高了我们了解海底世界的能力。以有缆水下机器人(RO
在工业设计和制造中,经常需要对已有的物体或部件进行数字化,并建立相应的数学模型:首先通过扫描仪采集模型的三维坐标信息,得到一系列的空间数据点,然后通过对数据点的拟合建立相
众核体系架构主要包括GPU,异构CPU上的GPU单元和使用x86指令集的MIC加速部件等,一般应用于通用计算的计算单元。近年来,由于CPU发展遇到了频率墙、功耗墙和存储墙等一系列瓶颈,使
随着网络技术和人工智能技术的不断进步,基于Agent技术的电子商务近年来有了快速的发展。为了尽可能取得更大效益,Agent可以在电子市场中通过联合进行买卖交易。然而,由于提供给
随着计算机网络的飞速发展和社会信息化进程的加快,越来越多的企业和政府部门通过信息系统开展业务、提供服务,信息系统的安全问题逐渐受到关注,成为时下热点。风险评估能够有效
随着计算机网络技术的飞速发展及Internet应用的普及,电子商务、电子政务、Internet网络信息等服务都随之获得广泛应用,从而使得网络安全日益受到社会的重视。而身份认证可以
随着对软件需求的快速发展,如何提高软件生产过程的效能,以便能更快、更省的交付高质量的软件产品,越来越成为软件开发突出的问题。近年来国内对中小型企业应用系统需求的快速增