基于强化学习的实时广告竞价策略

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:duanxinyu0056
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实时广告竞价(Real-Time Bidding,RTB)目前是现代互联网广告行业普遍采用的流量交易方法,结合大数据技术能够做到广告针对相应用户的精准投放,其整个投放广告的流程包括提供方平台(Service Side Platform,SSP)发起广告展示的请求,RTB的交易中心(AD e Xchange,ADX)向需求方平台(Demand Side Platform,DSP)发起竞价请求,而DSP会通过数据管理平台(Data Management Platform,DMP)获取用户相关信息,经过一系列的广告投放标准确定广告投放的预算并给出竞价,最终ADX根据相应竞价机制(如广义第二高价机制)确定赢得展示机会的广告活动,此外,RTB会跟踪广告投放后用户的响应行为并向获胜的DSP报告,简单来说,RTB模式就是广告主通过公开的竞价,获得实时竞价系统的广告展示机会。以上过程中的需求方平台代表了广告主的利益,它能够根据RTB系统跟踪到的用户行为来调整用户响应预测模型和竞价策略,制定实时、高效的竞价策略赢得展示机会,实现广告的精准投放并做到广告收益最大化是DSP最需要解决的问题。以往很多研究问题都将竞价的策略看作是一个静态的优化问题,对每一个广告流量都给予竞价或者单独看待每一广告展示的价值,然而现实世界中同时会有数以千计甚至万计的竞争者会参与对同一个广告展现机会的竞价,并且DSP代表的广告主随时会更改广告投放计划,这就使得RTB竞价环境高度动态且不能被准确估计,因此静态策略无法满足广告主的要求。为了解决上述问题,本文提出基于约束马尔科夫决策过程的实时广告竞价策略RLB-LG,将竞价决策过程视为强化学习问题。每个广告展示机会的竞价过程抽象为一个回合(episode),在强化学习问题中,状态空间由剩余竞价次数和剩余预算等实时信息组成,智能体(Agent)的动作就是出价,奖赏则通过点击通过率(Click Through Rate,CTR)和转化率(Conversion Rate,CVR)等指标来构建,进而将竞价的策略问题形式化为一个约束的马尔科夫决策过程,采用值迭代的方法求解,得出能够适应现实生活中高度动态环境的竞价策略。本文的主要贡献有:(1)对于点击率的预测模型,考虑到真实的场景下广告投放获得的点击率十分低,因此会有正负样本之间的比例极度不平衡的问题,所以会对本文采用的数据集首先进行负采样处理,同时模型方面采用GBDT+LR的融合结构(HEXR et al.,2014),通过GBDT(Gradient Boost Decision Tree)筛选出有区分度的特征和特征组合,再作为LR(Logistic Regression)模型的输入,提升LR模型的非线性学习能力,得到更为精准的点击率预测模型,并运用到竞价策略模型中去。(2)对于竞价模型,将竞价问题形式化为一个有约束的马尔科夫决策过程,采用强化学习中值迭代的方法求解,使本文提出的竞价策略能够在有预算限制下合理分配预算,购买更多具有投放价值的广告展现以达到较好的广告投放效果。本文还会将RLB-LG策略与工业上常用的几种竞价策略在i Pin You数据集上进行实验并进行效果性能的对比。实验结果表明,本文提出的竞价策略在总点击数、胜率等性能指标上都具有有效性。
其他文献
随着我国经济社会的不断发展,当前金融行业正处于异常激烈的市场竞争、严格监管时代,国家新一轮的改革和战略调整已经开始,国家市场对银行的发展提出了新的要求。农商银行作为农村金融市场的主力军,是实现国家支持农业发展战略的关键环节。L农商银行从创立至今,通过高速发展取得了一定的成绩,逐步成为当地体量较大的银行,然而在当前的严峻形势下,L农商银行需要结合自身实际情况,从农业供应链金融的视角找到新的发展思路和
传统村落是我国乡村聚落的重要且独特的组成部分,具有社会、经济、文化、生态等多重价值。全球化、工业化、城镇化和信息化影响下,传统村落逐渐由封闭走向开放,但也面临着空间衰败、文化消逝、人口流失、生态破坏等现实问题,亟待进行保护发展与功能更新。多功能转型是新时代传统村落保护发展的必然趋向,加强传统村落多功能转型研究对促进传统村落保护,重拾传统村落价值,实现传统村落可持续发展具有重要意义。基于多功能乡村转
从2017年起,着重考查学生综合素养的第二批新高考改革在山东省落地实施,在2020年的新高考山东卷历史试题中,也体现出高考历史试题为适应新高考改革所做出的变化,其中开放性试题的考察范围更加宽泛。开放性试题并没有将试题的答案进行明确,而只是给出了评分建议,也有部分开放性试题只给出一个示例答案。这种类型的试题考察范围更加广泛,对考生的要求也更加高,具备较强的综合性。它对考生的历史综合素养、思维能力进行
自我监督历来是政党面临的普遍难题。马克思主义政党十分重视党内监督,这也是其一大特点。党的十八大以来,中国共产党在全面建成小康社会、推动全面从严治党和推进治理现代化的特定时空背景下,不断促进党内监督的向前发展,着力解决长期没有得到很好解决的党内监督难题,促进了党内监督在理论和实践上的创新。党的十八大以来,中国共产党从实现民族复兴、党和国家治理现代化的战略高度,立足世情国情党情,坚持以马克思主义经典作
在全面推进乡村振兴的背景下,对乡村公共服务水平的重视程度日益提高,村庄基本公共服务供给由注重机构行政区域覆盖向注重常住人口服务覆盖转变。本文以青岛西海岸新区石河头村为样本,以优化设计该地公共空间为目的,将村民与游客作为服务对象。探讨在新型城镇化、乡村振兴、乡村旅游需求旺盛、农民生活水平提高的背景下,该村如何解决“资源禀赋有效利用、为人民而设计、提高乡村活力、可持续发展”等一系列问题。一方面对该村资
读后续写是浙江新高考实施以来的写作新题型,也是高中英语教学的重点。如何进行提高读后续写教学的有效性是我省近几年英语教师一直关注的问题。在读后续写中,学生们的作文普遍反映出一些问题:语篇解读错误导致续写内容离题、语言基础薄弱导致语言质量低、语言积累不够导致产出效果差。随着新课改以及对核心素养教学模式的展开,各类教学模式的有效性研究逐渐受到教师们的关注,然而导学案和读后续写教学结合的研究较少。对此,研
市政道路是城市交通基础设施的重要组成部分,是城市运行、交通运输和经济社会发展的重要载体平台。随着市政基础设施建设的步伐加快,道路路网存量趋于饱和。“城市更新”背景下,对市政道路管理工作从“建设好”向“养护好”“管理好”“运营好”方向提出转变需求,市场化养护模式应需而生。为充分了解徐州市政道路养护市场化的运行状况,发现养护市场化进程中存在的问题,进一步改进市场化养护效果,本文以“城市更新”理念与道路
生态环境关系着社会民生的发展,而生态补偿制度是保障民生、建设社会主义生态文明的基础制度,同时也是维护生态环境、推动经济和社会健康发展的重要机制。我国矿产资源丰富,是人民生活的重要物质基础,为了实现矿产资源的可持续利用,合理开采是必要的。然而,在巨大经济效益的驱动下,人们开始频繁地开采矿产资源,对生态环境造成了不可逆的损害,这既违背了我国的生态文明建设目标,也阻碍了我国的经济和社会的健康发展,使经济
酱卤肉制品是一种传统的中式肉制品,深受广大消费者喜爱。但由于其水分、营养物质丰富和敞开式流通环境,容易受到腐败微生物污染,导致其保质期较短。乳酸链球菌素(Nisin)和乳酸钠作为天然防腐剂,符合绿色标签的食品需求,旨在延长酱卤肉制品货架期的同时,降低对人体健康的危害。本文主要研究Nisin、乳酸钠对酱卤鸭脖中优势腐败菌的协同抑菌作用。从酱卤鸭脖中分离鉴定得到6株纯菌株,选择三株不同属的菌株研究其特
作为低碳烷烃选择性氧化的典型代表,正丁烷选择性氧化制备顺酐(MA)表现出了巨大的研究价值,目前唯一实现其工业化的催化剂是钒磷氧(VPO)催化剂。但是由于VPO催化剂仍然存在结晶性差,比表面积低和杂相多等诸多问题,致使正丁烷在选择性氧化反应过程中转化率低,同时顺酐的选择性和收率也不高。本文针对以上VPO催化剂存在的各种问题,以提高顺酐的收率为研究目标,分别探究了在不添加溶剂与添加绿色环保的低共熔溶剂