论文部分内容阅读
有向标签图作为重要的数据表示模型,广泛应用于社交网络、生物信息学、语义 web等信息技术相关的研究领域。目前,随着上述领域数据规模的快速增长,如何高效管理较大规模的有向标签图数据,成为了数据管理领域的热点研究问题,其中,子图查询匹配问题,由于其应用的广泛性而备受关注。如何高效地在较大规模有向标签图数据上进行子图的查询匹配,成为本文的主要研究目标。 本文分析并总结了有向标签图子图模糊查询匹配技术在国内外的研究现状,并在此基础上,以图压缩的思想作为基础,对较大规模有向标签图上的子图查询匹配技术进行深入研究,主要工作包括: 首先,提出了一种能够随查询图动态自适应更新的有向标签图结构概要模型——自适应结构概要ASSG(AdaptiveStructuralSummary ofGraphdata)。本文基于图压缩的思想构建有向标签图的自适应结构概要。该结构概要可随着查询图的引入而进行自适应更新,以应对不同查询图的查询匹配。另外,结构概要模型对于有向标签图中从未涉及查询的部分保持高度压缩,极大降低了存储空间。 其次,基于自适应结构概要,提出较大规模有向标签图上的子图查询匹配算法。本文通过结构概要模型定位候选匹配顶点集,并在引入查询图时更新结构概要模型的结构,最后通过子图查询匹配算法,可在接近线性的时间复杂度内,实现对查询图的查询匹配。 最后,本文在真实数据集 California、Citation、Internet及半模拟数据集Synthetic上进行了大量的对比实验,对主要工作进行了验证。实验结果表明本文提出的自适应结构概要 ASSG能够在线性时间复杂度内构建,并在接近线性的时间复杂度内更新。基于 ASSG的子图查询匹配算法的时间复杂度亦接近线性,较现有的其他子图查询匹配算法而言,显著降低了时间及空间复杂度。