论文部分内容阅读
聚类顾名思义就是将性质相似、属性相近的对象聚合到一起。它是数据挖掘、模式识别等研究中不可或缺的组成部分,能为许多研究提供支持。聚类分析目的是将表面看似毫无规律的事物进行归类,便于人们更好的认识它们,分析它们的内在性质,掌握本质的归律。图聚类是聚类中基本的信息处理方法之一,主要研究对象为网络图,从Internet到WWW,从大型电力网络到全球交通网络,从生物体中的大脑到各种新陈代谢网络,从科研合作网络到各种经济、政治、社会网络等。DNA计算,又叫做生物分子计算,其信息载体是DNA分子,通过生化实验借助生物酶的作用实现对DNA分子的操作,从而完成对信息的处理及问题的求解的一种全新模型。它以其高度的并行性为许多学者所青睐,对于解决图聚类问题有很好的效果。本文重点介绍了图聚类的背景知识及相关算法、DNA计算的基本原理和相关模型、DNA计算与图聚类相结合的基本思想和算法。首先介绍了图聚类涉及的基本问题:相关定义、聚类标准,然后介绍了图聚类的主要算法:最大流算法、层次聚类算法与最小树算法等。针对DNA计算,介绍了DNA计算的背景知识、生物原理、特点及计算模型。最后将多种DNA模型应用到图聚类中,与图聚类算法相结合,使图聚类算法的准确性得到提高,并通过算例证明其可行性。本文第四章中,提供了使用DNA两阶段法求最小切从而进行图分析的新思路。在使用两阶段算法前,首先根据一定的规则对给定图进行构造,使其适合使用DNA两阶段算法。在两阶段算法中,使用DNA编码技术编码图中顶点和边。经过生化反应生成关于构造图从选定源节点到槽节点的所有路径,再利用电子计算求出关于给定源节点和槽节点的最小切,从而完成对图的划分,然后迭代执行两阶段算法直到获得满意的聚类数目为止。给出了算法的证明,说明了算法的可行性。本文第五章中,针对图聚类介数算法中广度优先搜索聚类结果不精确等缺陷,通过对闭环DNA模型及其应用等方面的研究,将其运用在图聚类介数算法中。文章首先利用闭环DNA模型准确、快速的得到构造图从任意节点到所有节点的最短路径,得到最短路径树,同时该算法还可以直接得到最短路径树中每条边的介数,最后通过每次移除介数最大的边进行聚类,并通过算例证明了算法的可行性。本文第六章中,将DNA计算粘贴模型应用到最小生成树算法中,利用生化实验求得代表最小生成树的DNA编码混合物,然后利用探针提取出最小生成树中权值最大边的DNA编码片段,最后通过对最终产物的检测得到最终的聚类结果。