论文部分内容阅读
科学技术的飞速发展和互联网的广泛应用带来了信息数据的爆炸式增长。为了在大量的数据中发现有用的信息和资源,数据挖掘技术应运而生。作为数据模式中重要数据结构——图,被应用在方方面面来表达对象之间的复杂关系。图查询问题作为数据发现中的关键问题,被人们广泛研究。Top-k子图查询问题是子图查询技术中应用较为广泛问题之一。其被应用在知识图谱、社交网络等多个方向。在本文中提出了一种基于双索引的Top-k子图查询算法,该算法主要适用于带标签的无向的异构网络加权图和异构无权查询图,即从异构网络原数据大图当中找出同时满足查询图结构与标签类别两个条件的匹配结果。该Top-k子图查询算法在对大图进行检索中有明显的速度优势。首先,叙述了关于数据挖掘中图查询问题的一些相关概念,并对其研究现状及发展和相关算法进行了简要介绍,并分析了其中的优缺点。其次,在离线阶段提出了对大图构建双索引的概念,即图拓扑索引和最大元路径权重(MMW)索引两种。它们总结了网络的拓扑结构,并提供了最大元路径权重的上限。同时,还建立了大图的排序边列表,由此可以在执行子图匹配算法的同时进行Top-k排序,以便于在有效解决大图上最具兴趣度的子图查询问题的同时对图查询阶段的查询结果进行排序比较。再次,在线查询阶段,提出了以索引为基础来计算更紧密的兴趣度上界分数的方法。在查询匹配的过程中,首先根据拓扑索引对查询节点的候选匹配进行剪枝,然后按照从顶到底的顺序来遍历排序边列表。在遍历过程中,生成大小为1的候选匹配,采用贪心算法对已匹配的候选边进行实例化,计算实例化候选集的上限值,将其与已实例化的匹配的最小值进行比较,以维持实例化集合中K堆的大小。最后,在多个合成数据集上对提出的算法进行了广泛的实验验证,将实验结果与数据集进行详细分析,证明了该算法的有效性和合理性。