基于Top-k子图模式匹配的海量数据挖掘算法的研究

被引量 : 1次 | 上传用户:liaoquanya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网行业中随着大数据时代的提前到来,一系列专门针对海量数据挖掘的新兴且有效的信息提取技术开始引起科研人员的普遍关注与研究。但如今所产生的数据信息量逐年呈现出爆炸式增长的现象,数据在量变上除了呈现变大的趋势之外,同时也伴随着质的变化;然而传统的数据挖掘方法在很大程度上都是基于关系型数据库的基础上开发的,因此在一定程度上难以胜任数据类型更加多样化且数据结构关系更加复杂化等情况,需结合图查询、图遍历、图同构等图论方法,将图挖掘技术应用于海量数据的建模与挖掘操作过程当中,主要的应用领域包括图书管理系统(如图书资源检索)、社交网络(如人物关系匹配)、生物信息工程(如PPI、基因工程)等。本文提出的Top-k子图模式匹配(GPM)算法属于图数据挖掘当中一项典型的海量数据挖掘技术,基于图论中的图同构原理而提出的一种专门针对附带标签属性的单原数据图(有向或无向均适用)的图挖掘算法,即从海量原数据图当中匹配出同时满足查询图标签条件与结构条件(基于路径)的大量匹配结果来,适用的主要数据类型为RDF图数据。作者的主要研究工作如下。(1)介绍了关于海量图数据挖掘中图模式匹配的一些基本概念与相关算法,其中重点介绍了比较具有参考对比价值的Top-k子图模式匹配连接算法。(2)在论文中本人提出了一种高效且通用的Top-k子图模式匹配方案,在适用性方面该方案对于各种带环或不带环复杂结构的连通查询图均能得到正确的Top-k匹配结果;其中对于带环结构的查询图匹配方案是通过生成树代价预估匹配方案来选取最优生成树,并将其作为查询子树来拓展得到匹配结果的。(3)在算法性能测试阶段,采用的RDF图数据来源于DBLP的真实实验数据,本文提出的匹配方案基于该图数据不仅准确地得到了Top-k匹配结果,同时也验证了通过生成树代价预估匹配方案来选取最优生成树进行拓展匹配的可行性;其次通过与已有的Top-k GPM连接算法在时间与空间性能上进行综合对比,测试结果表明在消耗一定内存空间的基础之上其时间性能得到了较大改善。
其他文献
我国是葡萄酒消费和生产大国,但葡萄酒行业所使用的苹果酸-乳酸发酵剂主要依赖进口,目前没有我国自主知识产权的葡萄酒乳酸菌发酵剂。酒酒球菌SD-2a是一株分离自山东烟台地区自
背景和目的近视眼在当今世界的发生相当普遍,可以用“流行”这个词语形容。据统计,现今全球近视眼患者在10亿左右。近视的发病与人类种族、性别、年龄、地区、环境等因素有关
凸肩(叶冠)叶片及其盘组件的振动特性、振动响应及其减振效果的理论分析和实验研究均需要准确确定其摩擦接触边界条件.通过从Oden非线性、非局部摩擦定律出发,分析了它的机理
目的:应用超声心动图对单纯继发孔型房间隔缺损心房水平右向左分流进行定量分析,并评价影响心房水平右向左分流的相关因素及临床意义。方法:首先收集2013年5月-2014年4月期间在
“东道西器”,是一种艺术民族自觉的话语方式,本是有助于艺术的继承和发展的,然而,观察当下中国的风景油画的总体面貌,“东道西器”的命题早已泛滥,并因此失去了它本应有的积极意义
中国是一个干旱缺水严重的国家,全国淡水资源总量不足3万亿立方米,占全球水资源的6%,加之近年全国工业经济发展迅速的境遇,水资源消耗、水污染、水资源浪费现象严重,使得水利
利用MTS装置,对NiTi形状记忆合金在不同加载路径(拉、压、扭以及拉/压-扭比例加载)和不同温度(28~150℃)下的准静态相变行为进行了较系统的实验研究。结果表明,材料呈现明显的伪
本文在认真分析德育失误根源论和心理疾病根源论这两个关于当代大中学生品德与心理问题的归国理论的基础上,提出大中学生品德与心理问题应当归因于社会环境中的不良因素。因此
<正>通过观察针刺舞蹈震颤控制区对帕金森病(PD)小鼠海马脑源性神经营养因子(BDNF)的酪氨酸激酶受体(TrkB)及其下游信号通路分子蛋白Akt表达的影响,探讨针刺对多巴胺(DA)能神
会议
SSR(Simple Sequence Repeats,简单重复序列)是一种共显性标记,广泛分布于人类、动植物等各类真核生物基因组中,主要是1~6个核苷酸如(CA)n、(AT)n、(GGC)n等重复序列,呈孟德尔