论文部分内容阅读
关系型数据库负载管理、性能调优中,开销预测模型是提高其效率的关键技术。首先,由于数据库系统的复杂性和计算机资源的竞争,很难精确地估计不同操作的开销。其次,现有的研究大多没有真正预测查询的执行时间,而是预测了类似查询优化器中开销模型生成的开销。另外,由于查询计划结构的复杂性,现有研究更多使用笼统的查询信息,而很少利用查询计划中操作层面的信息,并依据这些信息来获得开销模型。为了减少负载管理的复杂性,本文提出了基于循环神经网络的精细模型来预测查询开销,以查询计划中的操作和其实际运行时间作为特征提取的来源。特别地,考虑到查询计划结构的复杂性,本文采用一种特殊的循环神经网络,长短期记忆(Long-Short Term Memory,简称LSTM)。给一个特定的查询计划,在该计划实际执行之前,模型就能得到其预测的执行时间区间。本文模型针对运行中的数据库实例进行持续训练和动态预测。在估算复杂查询的开销时,传统数据库开销模型由于一些相关性因素会预测不准,而本文模型通过神经网络学习到这些相关性,因此预测更准确。本文提出的这种创新方法来预测查询执行时间区间,可以用于解决数据库负载管理中的关键问题。通过实验验证,模型的准确率高于71%,一定程度上证明了方法的可行性。