竞争环境中学习算法的预检测机制

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:sxz123123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多Agent系统中(MAS),所有的Agent都在不断学习,对于单个Agent来说就是一个学习移动目标的问题.PHC(policy hill climb)算法理性但自博弈时并不收敛.不过,PHC自博弈时的平均策略却能够快速且精确地收敛到纳什均衡(NE).在一些需要NE作为先验知识或需要收敛到NE的算法中,可以通过增加一个PHC自博弈过程来估计NE,然后再根据对手策略采取进一步措施.这样,不仅可以避免使用其他算法计算NE,而且能够使学习者至少获得均衡回报.Exploiter-PHC算法(Exploiter算
其他文献