论文部分内容阅读
在互联网行业中随着大数据时代的提前到来,一系列专门针对海量数据挖掘的新兴且有效的信息提取技术开始引起科研人员的普遍关注与研究。但如今所产生的数据信息量逐年呈现出爆炸式增长的现象,数据在量变上除了呈现变大的趋势之外,同时也伴随着质的变化;然而传统的数据挖掘方法在很大程度上都是基于关系型数据库的基础上开发的,因此在一定程度上难以胜任数据类型更加多样化且数据结构关系更加复杂化等情况,需结合图查询、图遍历、图同构等图论方法,将图挖掘技术应用于海量数据的建模与挖掘操作过程当中,主要的应用领域包括图书管理系统(如图书资源检索)、社交网络(如人物关系匹配)、生物信息工程(如PPI、基因工程)等。本文提出的Top-k子图模式匹配(GPM)算法属于图数据挖掘当中一项典型的海量数据挖掘技术,基于图论中的图同构原理而提出的一种专门针对附带标签属性的单原数据图(有向或无向均适用)的图挖掘算法,即从海量原数据图当中匹配出同时满足查询图标签条件与结构条件(基于路径)的大量匹配结果来,适用的主要数据类型为RDF图数据。作者的主要研究工作如下。(1)介绍了关于海量图数据挖掘中图模式匹配的一些基本概念与相关算法,其中重点介绍了比较具有参考对比价值的Top-k子图模式匹配连接算法。(2)在论文中本人提出了一种高效且通用的Top-k子图模式匹配方案,在适用性方面该方案对于各种带环或不带环复杂结构的连通查询图均能得到正确的Top-k匹配结果;其中对于带环结构的查询图匹配方案是通过生成树代价预估匹配方案来选取最优生成树,并将其作为查询子树来拓展得到匹配结果的。(3)在算法性能测试阶段,采用的RDF图数据来源于DBLP的真实实验数据,本文提出的匹配方案基于该图数据不仅准确地得到了Top-k匹配结果,同时也验证了通过生成树代价预估匹配方案来选取最优生成树进行拓展匹配的可行性;其次通过与已有的Top-k GPM连接算法在时间与空间性能上进行综合对比,测试结果表明在消耗一定内存空间的基础之上其时间性能得到了较大改善。