面向基于强化学习推荐应用的混杂环境重构

来源 :南京大学 | 被引量 : 0次 | 上传用户:yuany06
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是机器学习的重要分支领域,其旨在学习序列决策任务中的最优策略模型。强化学习策略的训练需要在特定的任务环境中进行大量的采样试错,通过“探索”和“利用”机制达到优化策略的目的。然而,当强化学习应用于现实任务场景中时,很多时候会因现实因素的制约而难以直接与真实环境进行交互。因此,利用海量历史交互数据进行环境重构是强化学习得以在现实世界中有效应用的可能途径之一。然而,在许多现实任务场景中,环境是复杂且不可完全观测的,也就意味着混杂因子的存在。现有的强化学习方法虽然也能处理此类问题,但是忽略了混杂因子在观测数据中产生的混杂偏差,难以取得最优性能。本文首先提出了面向基于强化学习推荐应用的环境重构框架,然后通过将混杂因子视为混杂智能体,进一步提出了混杂环境重构算法,主要取得了以下创新成果:1.本文提出了可应用于现实推荐应用场景下的强化学习环境重构框架,利用重构出的模拟环境,能够使强化学习算法高效地优化推荐策略,避免了直接在推荐系统中训练策略所带来的高昂成本,从而促进强化学习在序列化推荐场景中的应用。2.本文提出了一种新的混杂多智能体环境重构算法,用于解决现实任务场景中存在隐藏的混杂因子的问题。针对不可观测的混杂因子,形式化地将其建模为混杂因子智能体。基于多智能体模仿学习框架,设计提出了混杂因子内嵌策略机制和兼容式判别器机制,实现对混杂因子策略的学习与还原。实验表明,该方法可以有效提升环境重构对智能体策略空间的还原效果。3.本文实现了将提出的混杂多智能体环境重构算法在大规模网约车平台滴滴出行上的应用,为司机活动推荐系统构建了虚拟环境,以便用于强化学习训练优化活动推荐策略。实验表明,该重构环境不仅在多个评估方面表现出较高的仿真度,同时其训练出的推荐策略在推荐效果上也取得了显著提升。
其他文献
通过每隔7d测定种子产量、千粒重、发芽率等指标,对青海三江源区大武地区青海草地早熟禾种子田最佳收获期进行了研究。结果表明:9月4日(盛花期后第25d)收获的种子产量和千粒重最
随着新媒体在高校管理工作中的作用越来越明显,如何利用好新媒体的传播力、影响力、公信力、引导力成为高校教育管理工作中应该深入思考的问题。文章分析了新媒体与高校教育
在三江源地区进行了青海草地早熟禾小区施肥试验,研究了不同肥料对青海草地早熟禾人工草地群落特征的影响。结果表明:在腐熟羊粪20000kg/hm。的施肥量下,牧草表现出良好的生产性
随着我国经济体制和科技体制改革不断深入,国有军工企业面临着越来越激烈的科研市场竞争,特定条件下的粗放型成本管理模式,已不能适应科研发展需求,加强科研成本管理,降低科
传统研究把小词得以广泛运用的认知动因归因于社会或历史等外部因素,但该现象的内因源自该语言使用者的认知思维。原型范畴理论和关联理论从认知的角度为揭示英语小词得以广
人民调解制度被誉为"东方经验"、"东方一枝花",它作为我国特有的纠纷解决机制在维护社会稳定、建设和谐社会中发挥着作用。随着我国经济社会的转型,如何完善与改革人民调解工
以党的十一届三中全会为形成历史起点的中国特色社会主义理论体系,不是割断理论发展历史联系的空降物,而是经历了一个长期艰辛探索的理论准备和理论孕育过程。邓小平在"文革"
高校作为大学生思想政治教育的重要阵地,应结合新形势、新情况、新任务积极探索加强大学生思想政治教育的新途径,建立高校家校合作长效机制,充分利用网络、书信、电话、短信
本文从展会空间分布、组织形式、场馆变化等角度对新疆会展业发展历史进行回顾,在此基础上,对新疆会展业发展现状进行了剖析,并且展望未来,提出了适宜新疆会展业发展的具体策
近年来,我国房地产发展迅速,逐渐形成了购房的热潮。而中国房地产市场骤冷骤热,销售量的起伏亦很大。房地产市场销售量的变化有肯定是有规律的。因为,房子也是一种商品,所以