基于元强化学习的建筑能耗预测方法研究

来源 :苏州科技大学 | 被引量 : 0次 | 上传用户：zhengafei1

【摘要】

：

【作者】

：

张影

【机构】

：

苏州科技大学

【出处】

：

苏州科技大学

【发表日期】

：

2021年01期

【关键词】

：

强化学习深度强化学习元学习快速适应能耗预测

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着中国经济的快速高质量发展,建筑能源的短缺以及环境污染等问题层出不穷,使得建筑节能成为必然趋势。其中建筑能耗中电力能源消耗较大,系统结构复杂等特点,减少建筑能耗浪费一直被视为节能领域的重点方向。同时建筑物数量的不断增加以及人们对舒适生活的高要求,使得建筑节能迫在眉睫。为了实现建筑节能的目的,高效精确的能耗预测是采取相关后续节能措施的重要前提。在本文中,分析了建筑能耗的现状和存在的问题,以及传统强化学习算法在建筑能耗预测应用方面存在收敛速度慢、学习效率低以及仅适用于小规模状态空间等问题,在此基础上探讨了一种基于元强化学习的方法研究,根据建筑能耗数据的马尔科夫性,在强化学习中引入了元学习思想,再通过梯度下降法来更新模型参数,训练出一个高精度系统模型,以提高建筑能耗预测的效率和精确度。主要提出了以下两种改进的深度强化学习算法,其主要内容如下:（1）为了解决传统强化学习算法的计算时间成本大,学习效率低等问题,提出了一种基于元学习的DQN（Deep Q-Network）算法研究,其中采用的是MAML（Model-Agnostic Meta-Learning）框架算法,在强化学习算法的学习过程中引入元学习的思想,解决了训练样本量不足导致的学习效率低以及过拟合的问题,同时提出的新算法利用内在奖赏函数训练得到合适的模型参数,使得智能体在学习的过程中仅通过少量训练数据就可以取得较好的收敛效果,以提高整体算法的学习率和精确度。将所提出的算法用于N-way K-shot和Grid world问题中,实验证明新算法比原始的DQN算法具有更好的收敛性。（2）为了逐步提高算法对训练样本的学习效率,在Meta-DQN算法框架基础上引入了近端策略优化（Proximal Policy Optimization,PPO）算法进行优化拓展,其中采用了重要性采样,对采样样本进行一个重要性评判以此确定该样本对学习任务的影响程度,提高了Agent对策略的探索效率,在此基础上添加了一个优势函数,此函数可增大优质动作在Agent未来与环境交互时出现的次数,提高智能体的有效学习能力,最后为了加大Agent的探索力度加入了OU动作噪音。（3）当今社会发展迅速,先进的智能家具设备越来越普及,建筑能耗问题也得到了广泛关注。由于对目前已有的建筑能耗数据和影响消耗的关键因素分析不足,以及实验样本量不足的问题,将导致预测精度无法满足实际需求。采用元强化学习算法以及PPO算法优化模型参数,实现算法对新环境的快速适应,并以大型办公建筑为研究对象,将其建筑能耗数据作为网络输入进行参数学习,以提高预测模型的准确性,为后续用电调度提供参考,实现建筑节能的目的。

其他文献

新时代背景下小学英语教师专业发展策略研究 ——以深圳市罗湖区为例

中国特色社会主义建设进入新时代,教育发展也进入了新的时期。小学阶段是人生中最重要的基础阶段,在新时代背景下,小学英语教师专业发展既是时代发展的必然要求,也是教育发展的必行之路。教育部在2012年发布了《小学教师专业标准（试行）》,该专业标准从不同的领域、维度和指标对小学英语教师提出了比较明确、具体、可参照的要求。要想从根本上培养适应新时代要求的未来人才,就必须从基础抓起,提升小学英语教师队伍素质,

学位

新时代小学英语教师教师专业发展策略研究

基于机器学习的筒仓动态侧压力预测模型及概率分布研究

筒仓卸料时的动态侧压力是导致筒仓结构破坏的重要原因。然而,受到筒仓几何尺寸、散体贮料的物理属性等因素的影响,动态侧压力分布极其复杂,且与其影响因素之间存在复杂的非线性关系。现行的研究方法大都考虑某一种或几种影响因素与筒仓动态侧压力之间的关系,实际上筒仓动态侧压力是多种影响因素共同作用下产生的。因此,建立一种能够考虑多种影响因素、高效、准确的动态侧压力的预测方法尤为重要。本文利用支持向量机、BP神经

学位

筒仓动态侧压力支持向量机BP神经网络随机森林预测概率分布

基于全面质量管理理论的高校教学质量保障路径研究

高等教育已进入以提升质量为核心、促进内涵式发展的新常态阶段。探索并完善高校教学质量保障的发展路径,是新时代提升人才培养质量的重要方式。改进教育教学质量,不仅要增加教育投入,更应通过优化组织制度、质量管理、教职队伍等内部要素,实现对教育过程的有效控制。同时要以“突出学生中心、产出导向、持续改进”理念为引导,积极探索新时代背景下高校教学质量保障的新路径。首先,对全面质量管理、教学质量和教学质量保障等核

学位

全面质量管理理论高校教学质量保障优化路径

司法社工介入未成年人社区矫正的个案研究 ——以黄石市XX社区张某为例

青少年时期是每一个人都要经历的阶段,这一阶段的生活环境和成长过程在每个人的人生道路上有着至关重要的影响。随着我国城市化进程的加快,社会经济的快速发展,青少年成长的家庭、学校、社会环境中的诸多不利因素时刻影响着青少年的成长,由此而产生的未成年人犯罪不仅影响青少年的健康成长,也增加了社会治安的压力。随着我国法制体系建设的完善,社区矫正作为一种非监禁刑在基层社会治理中的功能日益凸显。笔者运用文献研究和实

学位

未成年人社区矫正司法所个案工作

值班律师制度完善研究 ——以贵州为例

2006年中国开始对值班律师制度的试运行,在运行过程中取得了一定的成效。新刑事诉讼法对值班律师制度进行了完善,并在2018年确立了值班律师制度的具体内容。随着值班律师制度在全国范围内的推广,在司法实践中仍旧存在一些问题,例如,在刑事速裁程序中,值班律师只作为了诉讼前期为被告人提供法律咨询的角色,并不具有辩护人的身份,这一制度很大程度上给被告人诉讼权利的行使带来了影响。换而言之,目前的大环境下,还存

学位

刑事诉讼法律援助值班律师

本征阻燃环氧树脂的制备及在锂离子电池负极与生物基材料中的应用研究

锂离子电池负极是锂离子电池中热稳定性最差的部分,因此本文旨在开发一种新型阻燃的锂电池硅基负极胶黏剂以及绿色环保的生物基活性稀释剂,来补齐锂离子电池负极容易发生热失控的短板,提升高性能锂电池的能量密度、循环寿命和使用安全性;解决有机溶剂对环境的污染问题。本文利用四官能度环氧树脂AG-601与含磷阻燃剂DOPO反应,制备出本征阻燃环氧树脂i-FREA。环氧值测试、FT-IR和LC-MS表征证明了 DO

学位

本征阻燃环氧树脂锂离子电池生物基材料环氧大豆油

微小型惯性传感器偏值温度稳定性及不确定性分析研究

惯性导航技术广泛运用于航空、航天、航海、高铁等众多重要领域,拥有自主性强、精度高、安全可靠等优点。微小型惯性传感器是惯性导航、制导系统中的核心元件,用于实时测量敏感载体在空间中的运动,为导航、制导提供准确的位置与速度信息。微小型惯性传感器的性能很大程度上决定着导航、制导系统的精度。微小型惯性传感器的输出偏值是重要的性能指标之一,偏值的温度稳定性对惯性导航系统的导航精度影响巨大。而实际生产装配过程存

学位

微小型惯性传感器温度稳定性不确定性分析混沌多项式偏值输出

急性缺血性卒中患者rt-PA静脉溶栓的疗效、安全性分析及预后预测模型

目的:通过对急性缺血性卒中患者接受重组组织型纤溶酶原激活剂（Recombinant tissue-type plasminogen activator,rt-PA）静脉溶栓治疗和未接受rt-PA静脉溶栓治疗后3个月预后的调查,探讨rt-PA静脉溶栓治疗的有效性和安全性,并构建急性缺血性卒中患者溶栓预后预测模型,从而为提高急性缺血性卒中患者预后,推广rt-PA静脉溶栓治疗提供参考。方法:1.连续纳入

学位

急性缺血性卒中rt-PA静脉溶栓预后预测出血

趣味教学法在泰国小学一年级拼音课堂的应用 ——以泰国Wattana Wittaya Academy小学一年级拼音课堂为例

近年来,国内外许多的学者不断涌入趣味教学法这个领域,将趣味教学法运用于各个年级和各个科目的教学实践中,已经取得了显著的成果。由于小学一年级学生天性活泼好动、注意力较差和第二语言学习本身困难枯燥的特点,教学法在低龄儿童和第二语言语言教学中运用得更为广泛。本文主要将趣味教学法理论运用在泰国小学一年级拼音课堂中,探索出更多高效有趣的拼音教学方法和技巧,使学生更好地学习汉语拼音。汉语拼音是学习汉语的第一步

学位

趣味教学法泰国小学一年级拼音课堂

蜱铁蛋白和抗菌多肽cDNA的克隆和分析

1、微小牛蜱铁蛋白cDNA的克隆和分析从微小牛蜱克隆到一个新的铁蛋白编码基因，cDNA全长642bp，编码区为123-639nt，编码172个氨基酸残基，该蛋白预测的分子量为19.9kDa,等电点为4.24。预测氨基酸序列与已报道的变异革蜱、毛白钝缘蜱和蓖子硬蜱铁蛋白同源性分别为93.60％、88.37％和83.72％。该核苷酸序列在mRNA 5＇-未翻译区的茎环结构存

学位

微小牛蜱镰形扇头蜱铁蛋白抗菌多肽cDNA克隆重组表达

基于元强化学习的建筑能耗预测方法研究

其他学术论文