论文部分内容阅读
由于建筑具有面积大、能耗大和能耗复杂等特点,并且建筑自身是一个包含多种系统、设备相互连接的复杂非线性系统,因此一直被作为节能的重点。然而,建筑能耗受诸多因素影响,使得能耗预测变得相当困难。在建筑节能问题中,建筑能耗预测方法有很多,例如工程法、数学分析法、人工智能法等。其中,人工智能方法目前使用较为广泛,而强化学习方法在人工智能领域引发了广泛学者的关注,并在多个领域体现其应用价值。强化学习利用试错与环境相互交互的方法不断改进已获得的策略,主要优点在于自学习和在线学习,是目前人工智能的主要研究方向。本文围绕如何利用强化学习方法对建筑能耗进行预测展开研究,通过深度置信网(DBN)对历史能耗进行状态估计,利用强化学习中值迭代算法对能耗建模,实现能耗预测。由于值迭代算法具有较慢的收敛速率、较差的稳定性以及“维数灾难”等问题,本文通过函数逼近、option自动分层、reward shaping等方法提出两种改进的值迭代算法,更加快速准确地预测建筑能耗,主要内容包括以下三部分:(1)针对经典值迭代算法所存在的算法收敛不稳定以及收敛速度慢的问题,提出一种改进的基于函数逼近的冗余值迭代算法。算法将经典的值迭代算法与贝尔曼冗余值迭代算法相结合,引入权重因子,构建新的值函数参数更新向量,同时从理论上证明,利用所提出的值函数参数更新向量更新值函数参数可以保证算法收敛,解决经典值迭代算法收敛不稳定的问题。(2)提出一种基于option自动分层的启发式值迭代算法。该算法在识别子目标的过程中引入轨迹去环方法,减少样本数据,加快子目标的识别,提高option集的构造质量。为了避免误选子目标的情况发生,算法引入均值限界的方法,降低子目标周围状态的访问次数,以提高子目标识别的精度。此外,算法通过奖赏塑造(Reward shaping)方法,构建启发式信息,加快算法的学习过程。在完成option集的构造后,将option作为值迭代算法中抽象状态的输入,以求解问题的最优策略。(3)为了精确地预测建筑物未来时刻的能耗,提出一种基于值迭代算法的建筑能耗预测方法。由于值迭代算法无法处理连续的状态空间问题,因此本章节通过结合深度置信网(DBN)对建筑能耗进行状态估计,并将输出的状态集作为值迭代算法的输入,进一步完成能耗建模及能耗预测。通过美国巴尔的摩燃气和电力公司记载的建筑能耗数据进行测试实验,实验结果表明,利用DBN的方法提取能耗的高阶特征,能耗预测的准确性明显提高。此外,将第三章和第四章提出的两种改进的值迭代算法应用于能耗预测实验中,进一步验证算法的性能,由实验结果可知,两种改进的VI算法对能耗预测的精确性皆高于经典VI算法。