基于宏森林自动机的XML流数据查询技术

论文部分内容阅读

可扩展标记语言XML是一种半结构化的数据描述语言,因其具备高可读性、跨平台性和可扩展等特性,在互联网领域被广泛应用。XML不仅是一种优秀的数据存储格式,而且还是互联网中数据共享和交互的一种标准。针对XML数据的查询匹配算法一直是数据库领域的研究热点。近年来,网络在各行业和人们日常生活中快速普及,网络中应用的数量急速增长。很多基于网络的应用系统会持续地自动产生大量细节数据,例如气象实时分析、金融交易日志、互联网安全监控等系统。随着网络中数据交换量的激增,“XML流数据”受到了研究者们普遍关注。从流数据一次存取、持续处理、有限存储和快速响应等处理要求可知,人们从持续到达的海量数据中识别出有价值的少量数据,不仅需要丰富的查询功能和强大的查询处理能力,而且应该避免占用过多系统资源,但现有的大部分面向传统XML数据库的查询机制,并不适用于XML流数据,这给XML查询处理提出了新的需求和挑战。因此,研究针对XML流数据的查询处理算法就变得尤为重要。基于宏森林自动机的XML流数据查询算法被认为是最优秀的XML流数据查询算法之一,本文提出一种根据XPath查询构造宏森林自动机的方法,该方法支持范围覆盖了XPath查询的核心部分,如PC轴、AD轴、任意多重谓词和任意层次的嵌套谓词。通过实验证明,本文提出的方法扩展了查询的支持范围,同时根据该方法构造的自动机状态数目和查询的复杂度线性相关,不仅可以正确地查询出目标结果,而且算法具有很高的执行效率。

其他学术论文