图数据库查询处理技术的研究

被引量 : 0次 | 上传用户:lcxlllwho
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种通用的数据结构,图可以用来表示数据对象之间的复杂联系。例如:图可以表示化合物的分子结构,蛋白质交互网络,社会网络等。随着科学与工程领域中图数据的大量出现和累积,图数据管理已成为数据管理领域一个重要和热点研究的子领域。图数据库查询处理是其中最重要的研究分支之一,其对图相关的绝大部分处理和应用(例如:图挖掘、化学数据库PubChem)起着基础支撑作用。本文主要对图数据库中的查询处理技术进行深入研究,归纳总结了现有研究成果的主要思想和优缺点,提出了一些新的图数据库查询处理方法,主要研究成果如下:1.提出一种图数据库中高效处理超图包含查询的新方法。新方法综合的从图数据库的压缩组织、构造有效的特征索引以及基于压缩组织来处理查询三个方面着手考虑问题。(1)在图数据库的压缩组织方面,提出图数据库的有效组织方法,以提高整体查询处理效率。现有的采用过滤-验证机制的方法将图数据库中的图逐个的独立存放。提出方法将图数据库中图结构化的压缩组织起来。通过压缩组织方法,产生一个逻辑数据结构GPTree,其中记录了数据库中图的公共子图的信息。为了优化的构造GPTree,形式化定义了最优诱导子图选择问题;证明了其是一个NP难问题,并提出了一个近似比为2的近似算法。(2)在构造有效的特征索引方面,提出高效而不依赖于历史查询的子图索引特征生成方法,以及两种索引结构CRGraph和FGPForest。首先基于分析,给出索引特征的显著性度量。提出了找出所有显著性不小于用户需求的索引特征的方法,即精确索引特征生成方法。为了适应需要更加快速的生成索引的应用场景,提出了特征索引构造的一个近似方法。这两种方法都是基于图模式挖掘的方法。为了高效使用索引特征,对索引特征进行排序;并且基于理论分析给出了求解其最优排序的算法。(3)在基于压缩组织来处理查询方面,提出从多个图到一个图的子图同构检测的新方法,称为GPTreeTest。现有方法逐个的考察每个图对进行检测,新方法能够利用压缩组织中公共子图的信息,显著减少对多个图的子图同构检测的总时间。最后,在真实数据集和合成数据集上的实验结果表明,提出方法比目前最好方法高效1至2个数据量级。2.提出不确定图数据库上概率top-k子图匹配查询的新问题、以及一种查询处理方法。首先给出不确定图数据模型,结合现实需求提出概率top-k子图匹配查询问题。一个顶点的邻居子图是由其距离不大于给定阈值内的所有顶点和边构成的子图。基于图结构空间相关性的特点,以附带概率信息的邻居子图为基础,设计一种有效的索引结构NG-Index。NG-Index索引可以很容易实现于成熟的关系数据库中,具有强健壮性。提出一种高效的基于搜索树的算法来进行查询处理。其中运用了一种概率剪枝技术来提高性能。最后通过实验考察并证实提出方法具有良好的效率和可扩展性。3.提出结合概念分层的图统计信息定义以及查询处理方法。具体地说,给出了结合顶点关联的概念分层,根据用户指定的搜索兴趣来高效地计算数据图中统计信息的方法。首先提出一种结合概念分层的图统计分布表示。本文将用户搜索兴趣建模为概念图,并以用户概念图的子图匹配计数为基础来表示图统计信息。其次,为了高效计算此统计分布信息,设计了一种基于子图密度的索引结构并提出两阶段的计算方法: (1)先基于索引快速地去除数据图中的不相关边并将数据图打散划分为若干小尺寸的连通图;(2)再对这些连通小图分别计算统计信息,最后合并得出结果。在连通小图上计算统计信息的核心是概念图的子图匹配计数问题。文中针对这个子问题着重提出两种高效算法:前向计算算法和后向计算算法。这种在精确计算之前将数据大图快速打散为多个小图的分治思想是总体效率提升的关键所在。最后,在真实数据集上的实验结果表明所提出方法具有良好的效率和可扩展性。4.提出了一种较大尺寸的标签图子图同构检测方法及其应用方法。所提出的检测方法是一种基于搜索的方法。本文从标签图的特性出发,以标签信息和图拓扑结构相结合的方式来缩减搜索空间。首先,将标签按照出现的频率比转换为数值。然后,将标签信息与结构相结合,来构造多组细粒度的顶点不变量。顶点不变量是关于顶点的固有属性,其在同构映射下保持不变。借助于所构造的细粒度的顶点不变量,将标签信息沿图拓扑结构传播开来,并缩减匹配顶点候选集来减小搜索空间。再次,基于顶点不变量生成了细粒度的剪枝条件。由于结合标签信息和拓扑结构,这些条件具有更强的剪枝能力。另外,将提出检测方法中的技术细节应用到第2章提出的GPTree结构上,来显示其可用来优化已有方法的适用性。最后实验结果表明,提出方法具有良好的高效性,同时应用新技术的GPTreeTest*算法效率优于原始方法GPTreeTest。
其他文献
随着经济迅速发展,我国结直肠癌的发病率已经超过了世界平均水平,但三级预防却与国际水平差异较大,本文通过祖国传统医学“治未病”思想结合现代医学的三级预防,探讨结直肠癌
我国是稀土资源大国,稀土的储量和产量均居世界首位。稀土元素在显示器荧光粉、钕铁硼永磁材料、镍氢电池、稀土铝合金、精密陶瓷等的制造中是不可缺少的重要原料。我国稀土
目前我国心脑血管疾病发病人数呈快速上升趋势,冠心病的高死亡率、高致残率和高复发率导致了沉重的社会和经济负担。本文结合国外心血管疾病的大量循证医学证据、临床试验结
<正> 亚马逊开辟了电子商务的未来,也让人们体验到了互联网深处的危机。 今年6月以来,曾一度被投资者们誉为纳斯达克市场上高科技类的“股王”和网上零售业景气状况晴雨表的
20世纪90年代起,他一直推动着中国新能源客车的发展。2010年,他关注到具有国际领先水平的新型钛酸锂电池快速充电技术,并在试制的样车上装上了这种电池。该技术克服了传统电
随着我国经济的迅猛发展,人民的生活水平逐步提高,旅游业的发展可谓"一日千里"。旅游营销作为现代旅游企业发展战略的核心内容,在现代旅游业发展中的作用越来越重要,更是影响
本文探索制备超细晶T250马氏体时效钢的最优循环相变和等径弯曲通道变形(Equal Channel Angular Pressing,简称:ECAP)结合的复合细化工艺,并研究复合细化工艺对T250马氏体时
<正>吴越丧葬习俗既是中华民族丧葬文化的重要组成部分,又是具有自己地方特色的具体存在。在长期的历史发展过程中,不管是墓葬的形制、葬法葬式、仪式过程,还是通过墓葬或仪
化学学科的发展与人类社会有紧密联系,社会的发展和进步离不开化学这门学科的发展与进步。化学实验作为化学学科的重要组成部分,是研究化学现象、总结化学经验的重要手段,只
建筑业是我国国民经济的支柱产业,是国民经济各行业固定资产投资转化为现实生产力和使用价值的必经环节,为推动国民经济增长和社会全面发展发挥了重要作用。然而我国建筑企业