论文部分内容阅读
在MAS(Multi Agent System)环境中活动的Agent总是在一个庞大的、复杂的、开放的、动态的和不可预期的环境中操作。它在任意时刻的最优策略总是依赖于其他Agent所使用的策略集合,因而成为一个学习移动目标的问题。多Agent学习不仅是分布式人工智能和机器学习(Machine Learning,简称ML)的交叉领域,而且是ML和博弈论的交叉领域。在一个竞争的环境中,一个令人满意的多Agent学习算法至少应该满足理性和收敛性。在满足这两个属性的基础上,在与公正对手进行博弈时,应尽可能的使Agent在博弈中攫取最大收益。目前,有些很好的算法以能够同时满足理性和收敛性,而另一些算法能够在与公正对手的博弈中攫取高额回报,但是却不能二者兼得。在本文中,我们详细分析了MAS中的学习环境理论模型,简要介绍了多Agent环境中学习算法应具备的属性,并分析了当前一些学者提出的算法。然后,着重考察了简单的两人两动作重复一般和博弈的策略特点,通过动态系统理论的指导,分析了使用逐步策略爬升的Agent的行为,根据S.Singh等人给出的结论,我们提出并证明了在两人两动作博弈中关于双方策略的一个推论,并使用现有博弈算法进行验证;接着,通过将该结论与增强学习算法相结合,从实用的角度考察了我们得出的结论;不仅如此,在实际中我们又将该算法的用途进一步扩展到两人三动作博弈中,并通过实验验证;然后,根据得出的结果,提出了一个新的MAS环境中的Agent学习算法ExploiterWT,该算法具备已知算法的多数优点,如:理性和收敛性;而且能够击败某些公正对手,在长期博弈中获取高额回报。我们通过一系列的实验来验证ExploiterWT算法的有效性,详细描述了实验过程的每一个细节,说明了该算法在两人两动作和两人三动作博弈中的效果是令人满意的。