基于双索引的Top-k子图查询算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:youdong1964
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学技术的飞速发展和互联网的广泛应用带来了信息数据的爆炸式增长。为了在大量的数据中发现有用的信息和资源,数据挖掘技术应运而生。作为数据模式中重要数据结构——图,被应用在方方面面来表达对象之间的复杂关系。图查询问题作为数据发现中的关键问题,被人们广泛研究。Top-k子图查询问题是子图查询技术中应用较为广泛问题之一。其被应用在知识图谱、社交网络等多个方向。在本文中提出了一种基于双索引的Top-k子图查询算法,该算法主要适用于带标签的无向的异构网络加权图和异构无权查询图,即从异构网络原数据大图当中找出同时满足查询图结构与标签类别两个条件的匹配结果。该Top-k子图查询算法在对大图进行检索中有明显的速度优势。首先,叙述了关于数据挖掘中图查询问题的一些相关概念,并对其研究现状及发展和相关算法进行了简要介绍,并分析了其中的优缺点。其次,在离线阶段提出了对大图构建双索引的概念,即图拓扑索引和最大元路径权重(MMW)索引两种。它们总结了网络的拓扑结构,并提供了最大元路径权重的上限。同时,还建立了大图的排序边列表,由此可以在执行子图匹配算法的同时进行Top-k排序,以便于在有效解决大图上最具兴趣度的子图查询问题的同时对图查询阶段的查询结果进行排序比较。再次,在线查询阶段,提出了以索引为基础来计算更紧密的兴趣度上界分数的方法。在查询匹配的过程中,首先根据拓扑索引对查询节点的候选匹配进行剪枝,然后按照从顶到底的顺序来遍历排序边列表。在遍历过程中,生成大小为1的候选匹配,采用贪心算法对已匹配的候选边进行实例化,计算实例化候选集的上限值,将其与已实例化的匹配的最小值进行比较,以维持实例化集合中K堆的大小。最后,在多个合成数据集上对提出的算法进行了广泛的实验验证,将实验结果与数据集进行详细分析,证明了该算法的有效性和合理性。
其他文献
绩效考核作为企业人力资源管理的核心部分,是企业实现高效生产经营、增加核心竞争力和完成战略目标的重要手段。随着信息时代的来临,传统的绩效考核方式存在着冗杂、效率低等
脉冲切换系统是非线性动力学的重要组成部分,它从动力学的角度揭示了切换系统的非线性特征,引起了国内外众多科学工作者的高度重视,是当前非线性动力学领域的研究热点之一。
生物验证技术是通过测量人的生理或行为特征来进行身份验证的一种方法。基于生物特征的身份验证方法克服了传统验证方法的很多不足,已广泛应用于很多领域。与其他生物特征相
随着智能终端产品的普及,无线局域网业务的客户群和需求量的快速增长,未来无线局域网将处于一种高密度部署的环境中。在2.4GHz频段中互不干扰的信道仅有3个,远不能满足用户需
随着互联网高速发展,越来越多的企事业单位开始发展建设信息化业务系统,促使其业务处理方式发生重大改变。在构建企业级应用系统时,如何在分布式环境下搭建高效可用的Web应用
云计算通过虚拟化技术将软硬件资源进行整合构建成资源池,并以服务的形式提供给用户,具有高可扩展性、高可用性和弹性服务的特点,提高了资源利用率,降低了资源分配和管理的复
软件已经成为国防建设和国计民生的重要组成部分。然而,随着软件技术的快速发展,软件的规模越来越大,复杂度越来越高,软件安全问题日益凸显。如何保障软件的安全性,稳定性和
近年来,多媒体应用所带来的真实的深度感知与身临其境的视觉享受使人们对三维视频的需求急剧上升。目前,3D视频广泛采用多视点+深度(Multiview Video plus Depth,MVD)的表示
近年来,随着云计算、大数据、移动互联网的兴起,对人们的日常生活和工作产生了极大的影响,但同时,传统的网络服务的局限性开始影响上层IT业务的发展限制逐渐显现出来,如何做
随着计算机技术的迅猛发展,计算机辅助教学(CAI)得到了深入的应用。试题库及自动组卷,是计算机辅助教学中的重要一环。依据试题库进行自动组卷,就是根据储存在数据库中的试题