论文部分内容阅读
近年来,图数据挖掘技术已经成为了一个备受关注的研究领域,由于现实世界中很多事物都能够自然地使用图模型来描述,该技术广泛地应用于社会网络、计算机网络、计算生物学、web应用等领域。紧密子图是具有特殊结构与性质的子图,因紧密子图的诸多性质,紧密子图能够帮助理解各种类型关系网络的结构特征。因此,紧密子图成为图数据挖掘领域的重要研究方向。
随着信息技术的飞速发展,越来越多的真实网络出现在人们视野中。在具有极大规模的同时,种类纷繁的内容信息也出现在这些网络中。传统的紧密子图发现问题主要基于图的拓扑结构特征而忽略了图上的内容信息,而利用这些极具价值的内容信息对传统的紧密子图发现问题进行扩展将能够产生更多新的有意义的应用。
本文提出一种新的结合图的结构特征和节点内容属性的紧密子图发现问题—top-k属性差异q-clique查询,找出图中节点间属性具有较大差异的q-clique。该问题旨在使所找出的紧密子图中属性内容尽可能丰富且节点的属性内容各有特点。给定q-clique的属性差异度量,发现k个具有最大差异的q-clique称为top-k属性差异q-clique查询。在科研合作关系图中,该查询可以发现诸如研究领域或所属单位等属性上不同的具有紧密合作关系的团队,这类团队可能具有更强的综合竞争力。在股票市场图中,该查询可以发现彼此价格具有紧密相关性而来自于不同行业的股票组合。
本文给出了三种q-clique的属性差异度量,通过将节点间的属性相异度转换为邻接边的边权值,使得问题转化为最大权值q-clique查询问题,同时本文证明了该查询问题为NP难问题。本文采用回溯法,利用图的结构性质和边的权值形成剪枝条件,提出了一种有效求解问题的算法AD-Qclique,同时依照best-first排序思想优化节点访问次序,提出基于优先次序的AD-Qclique算法进一步提高算法性能。
本文采用真实的ACM学者信息数据集进行实验,分析了查询算法的效率和查询结果的质量。实验表明,本文所提出的算法AD-Qclique效率远优于基本算法BSL,而基于优先次序的AD-Qclique算法也有效地改善了算法的性能。最后,本文对查询结果q-clique中的节点的结构中心性及结果q-clique的各类多样性指数进行了分析,并比较了各属性差异性度量的优劣。实验表明,带层次简单节点属性相异度极好地满足了本文所提出查询问题的应用需求,较高属性差异度的查询结果中的学者节点皆具有较强的结构中心性、较高的H-index值及广泛的研究领域。同时,结果q-clique都具有较高的多样性指数值,表明查询返回的合作团队具有较强的综合竞争力。总之,作为一种特征紧密子图查询,属性差异紧密子图查询问题具有重要的实际应用价值,能够进一步地挖掘网络中有意义的特征子结构。