论文部分内容阅读
针对蒙特卡罗树搜索(MCTS)算法对蒙特卡罗模拟次数的依赖性较强,为获得较高智能必须进行多次模拟的情况,提出了结合在线强化学习知识以减少MCTS算法对蒙特卡罗模拟次数的依赖,在搜索过程中积累强化学习知识,并快速对动作值作出估计。实例表明,该种方法较MCTS具有更高的智能表现,并有一定的实用价值。