论文部分内容阅读
强化学习是机器学习的重要分支领域,其旨在学习序列决策任务中的最优策略模型。强化学习策略的训练需要在特定的任务环境中进行大量的采样试错,通过“探索”和“利用”机制达到优化策略的目的。然而,当强化学习应用于现实任务场景中时,很多时候会因现实因素的制约而难以直接与真实环境进行交互。因此,利用海量历史交互数据进行环境重构是强化学习得以在现实世界中有效应用的可能途径之一。然而,在许多现实任务场景中,环境是复杂且不可完全观测的,也就意味着混杂因子的存在。现有的强化学习方法虽然也能处理此类问题,但是忽略了混杂因子在观测数据中产生的混杂偏差,难以取得最优性能。本文首先提出了面向基于强化学习推荐应用的环境重构框架,然后通过将混杂因子视为混杂智能体,进一步提出了混杂环境重构算法,主要取得了以下创新成果:1.本文提出了可应用于现实推荐应用场景下的强化学习环境重构框架,利用重构出的模拟环境,能够使强化学习算法高效地优化推荐策略,避免了直接在推荐系统中训练策略所带来的高昂成本,从而促进强化学习在序列化推荐场景中的应用。2.本文提出了一种新的混杂多智能体环境重构算法,用于解决现实任务场景中存在隐藏的混杂因子的问题。针对不可观测的混杂因子,形式化地将其建模为混杂因子智能体。基于多智能体模仿学习框架,设计提出了混杂因子内嵌策略机制和兼容式判别器机制,实现对混杂因子策略的学习与还原。实验表明,该方法可以有效提升环境重构对智能体策略空间的还原效果。3.本文实现了将提出的混杂多智能体环境重构算法在大规模网约车平台滴滴出行上的应用,为司机活动推荐系统构建了虚拟环境,以便用于强化学习训练优化活动推荐策略。实验表明,该重构环境不仅在多个评估方面表现出较高的仿真度,同时其训练出的推荐策略在推荐效果上也取得了显著提升。