论文部分内容阅读
2019年初国家电网创造性得提出建设“三型两网,世界一流”的战略目标,标志着我国的电力市场化改革进入新的阶段,而建设泛型电力物联网是其中的重点。通过建立泛在电力物联网,实现电力系统所有环节的全面感知和万物互联,并建立一个智慧能源交易服务平台,形成一个完整的、信息共享的能源生态圈。而解除管制的电力市场中的供给侧和需求侧可以通过电力交易平台实现在线的能源交易,因此如何制定报价策略以实现长期收益的最大化,成为了相关利益实体和辅助服务提供商的研究重点,而强化学习是用于最大化未来长期奖励的学习方式,因此本文研究的重点是基于强化学习策略(尤其是多臂赌博机模型)的能源互联网中供给侧的实时竞标拍卖机制。论文的主要工作包括:(1)首先,对多臂赌博机各种类别和相关算法进行了详细的介绍,并且分析了多臂赌博机算法在多轮拍卖机制中的应用,以及在解除管制的电力市场中的发电侧的竞标发电负荷、需求侧的需求响应以及虚拟交易的虚拟投标中的使用,论证了多臂赌博机算法可以用于能源互联网中在线能源交易的实时策略性报价。(2)在电力现货市场中,由于缺乏竞争对手的信息,发电厂商可以根据自身的生产成本和观察到的市场价格信息策略性地提出报价,获得发电份额,实现自身收益的最大化。所以本文在充分考虑了电力市场的动态性和不确定性的基础上,将发电厂商的策略性竞标行为建模为一个对抗型多臂赌博机模型。为了解决策略性报价的问题,本文提出了一种连续值上的探索和利用的指数权重算法(exponential-weight for exploration and exploitation with continuous value,Exp3C)。Exp3C算法能够在连续的价格区间上决定投标价格,并且根据收益反馈不断优化竞标策略,本文通过理论分析证明了Exp3C每轮的平均悔值上界为,其中T是总的竞标轮数。本文还使用PJM历史数据进行发电侧的竞标实验模拟来评估了Exp3C策略的表现,通过比较不同的投标策略所获得的累计收益和悔值大小,可以证明Exp3C策略的表现比其他的投标策略更好。本文还证明当所有发电厂商都采用Exp3C投标策略来决定报价时,其投标价格会趋于纳什均衡,并且最终整个市场都会处于纳什均衡状态。(3)国外电力市场为了促进日前市场和实时市场之间的电价趋同,引入了虚拟电力交易机制,参与者可以通过在日前市场买入(卖出)电力,然后在实时市场卖出(买入),不需要生产或者消耗电力,通过两级市场的差价进行套利。针对电力市场的虚拟电力交易的报价问题,在已有几种投标策略的情况下,提出了一种融合已有策略的自适应专家建议投标策略。这个投标算法就是使用专家建议的连续值上的探索和利用的指数权重算法(exponential-weight for exploration and exploitation with continuous value with expert advice,Exp4C)。Exp4C算法是一种上下文相关的多臂赌博机算法,能够综合利用各个策略给出的专家建议做出报价,取得较高的累计收益,本文使用PJM的历史数据进行虚拟竞标的实验仿真来评估Exp4C策略的性能表现,通过比较累计收益和累计悔值大小证明了通过Exp4C策略进行投标能够获得比其他单一策略更高的收益。