论文部分内容阅读
随着数据库技术的发展,企业建立了大量的数据库,如何把数据转化为决策信息成为一项重要的任务,数据仓库应运而生。在数据仓库系统中,OLAP(联机分析处理)是一项被广泛应用的技术,能够多角度、多粒度地分析数据。数据仓库和OLAP都是基于多维数据模型:数据立方体,数据立方体是实现OLAP操作的有力模型。随着计算机应角的日趋深入,产生了大量的社会网络.生物网络和化合物络等图数据,此类数据统称为信息网络。在信息网络中,结点代表实体,边代表实体之间的关系,结点和边可以具有属性、标签或者权重。信息网络的应用非常广泛,比如:DBLP合作者网络、社交网络Facebook、IMDB演员合作网络等等。信息网络根据网络中实体类型的多少分为同构信息网络和异构信息网络。信息网络中蕴含着大量的实体信息以及实体之间的关联信息,研究如何对此数据进行多角度多层次的分析有着重要的意义。传统的数据立方体是基于同一种实体类型的多维数据模型,例如关系OLAP数据库中所有的元组代表一种类型,各个字段表示该类型实体的属性,各个实体是相互独立且没有关联的。因而,数据立方体不能够解决信息网络上的多维分析问题。有关信息网络的分析研究工作近来得到了深入的发展,并且有一些很好的成果,如Graph Cube、Graph OLAP等,但目前的研究对同构信息网络的分析能力尚有不足,对异构信息网络的研究尚不多见。本文分别针对同构信息网络和异构信息网络的结构特点提出了相对应的多维分析模型:简单嵌套立方体和多层嵌套立方体。同构信息网络中具有单一类型的实体及联系,已有的方法分析能力有限,不能对关系的内容进行深度分析,本文提出的简单嵌套立方体,能够对同构信息网络的实体和实体间联系进行统一的多维分析。异构信息网络中具有两种及以上的实体类型和多种关系类型,本文提出的多层嵌套立方体可以为异构信息网络建模,实现异构信息网络上的多维分析操作。本文的工作可归结为如下几点:1.提出多维网络刻画同构信息网络,然后在多维网络的基础上提出了简单嵌套立方体的概念。最后给出了简单嵌套立方体上的复合OLAP查询,解决了同构信息网络上的多维分析问题。2.提出了多维异构网络刻画异构信息网络,然后在该多维异构网络的基础上提出了多层嵌套立方体,多层嵌套立方体是两层嵌套立方体的扩展,最后给出了多层嵌套立方体上的复合OLAP查询,解决了异构信息网络上的多维分析问题。3.提出了嵌套立方体的数据存储模式和物化方法,在真实的数据集上证明了新模型的有效性和物化方法的效率。