论文部分内容阅读
在现实世界中,网络随处可见。如全球交通网络、因特网、生物系统中的新陈代谢网络、科学家合作网络、生态网络和在线社区网络等。网络中存在着大量的社区结构,而对网络进行社区划分能够很好的理解网络,它不仅帮助人们能够了解该网络的结构,而且还帮助人们发现该网络的特性。社区划分技术广泛应用在物理学、生物学、计算机图形学和社会学等领域中。其研究成果不仅可以为用户提供一些及时、可靠并且有价值的信息。而且在理论与实际生活中都有极其重大的意义。
近年来,谱聚类算法在机器学习领域中获得了广泛的应用。与传统的聚类方法相比,它具有能在任意形状的样本空间上进行聚类,以及能收敛到全局最优解的优点。但是传统的谱聚类算法对尺度参数十分敏感,如何选择一个合适的尺度参数十分困难。因此本论文改进了传统的谱聚类算法并进行了相关扩展。本论文主要工作包括:
(1)针对传统的谱聚类算法选择尺度参数的问题,本论文提出了一种改进的自适应谱聚类算法,该算法通过融合核学习理论中的核参数选取技术,并采用核参数选取方法中的迭代组合思路选择尺度参数,使得改进后的自适应谱聚类算法能够自适应的选择最优尺度参数组合;
(2)针对自适应谱聚类算法未能利用网络数据集样本间监督信息的问题,本论文提出了一种改进的半监督自适应谱聚类算法,在自适应谱聚类算法的基础上融合了半监督聚类学习理论,并通过成对约束集构建相似矩阵,使得改进后的半监督自适应谱聚类算法能够有效利用网络数据集样本间的监督信息;
(3)针对半监督自适应谱聚类算法未能有效充分利用网络数据集间监督信息的问题,本论文提出了一种改进的半监督谱聚类集成算法,在半监督自适应谱聚类算法的基础上融合了聚类集成理论,并通过集成成对约束集,使得改进后的半监督谱聚类集成算法能够进一步有效利用网络数据集间的监督信息。
本文针对上述三种改进的算法,分别通过人工网络数据集和现实网络数据集分别进行了实验验证,通过实验表明了改进算法的有效性。