分布式环境下谱聚类算法研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:songyang1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是人类一项最基本的认识活动,是机器学习中的经典问题。所谓聚类就是按照事物的某些属性,把不同的事物聚集成类,使类间的相似性尽可能小,类内的相似性尽可能大。κ-means聚类算法作为一种基于中心的聚类算法,是一种比较经典和普遍的算法。当数据集为凸球型分布时,κ-means算法有很好的性能,能够得到较好的聚类结果。但是当样本空间不为凸时,κ-means算法往往会失效,而且算法利用迭代最优化方法求解最优解,因此算法会陷入局部最优解的情况。为了能在任意形状的样本空间上聚类,且能够收敛于全局最优解,近几年新出现了一种无监督的聚类算法即谱聚类算法克服了κ-means算法陷入局部最优解的缺点。该算法具有识别任意形状样本空间的能力,不会陷入局部最优解,能够很好的应用在实际问题中。但是应用在海量数据样本空间时,谱聚类算法会受到计算机存储空间不足和运行时间的限制,为了使算法能够在海量数据情况下使用,我们可以将该算法移植到分布式环境中,同时使用两种不同的方法将矩阵稀疏化,减小对内存空间的使用。本文重点是如何实现基于分布式环境下的高效谱聚类算法,具体内容包括:1.对相似矩阵进行稀疏化,同时比较两种不同的稀疏化方法的优劣。这里我们采用的两种稀疏化的方法有t最近邻方法和Nystrom方法,为了选择一种较优的方法,这里对两种方法从不同角度进行比较。最后通过实验验证我们发现使用t最近邻方法能够得到更好的聚类结果。2.利用以上由t最近邻来实现相似矩阵的稀疏化的方法,我们可以使用MPI模型和谷歌的Map/Reduce系统来搭建我们需求的分布式环境。之后将谱聚类算法移植到分布式平台上进行验证,结果表明,算法能够充分的利用各节点的资源,提高算法的运行效率,具有良好的扩展性,为海量数据的处理提供了很好的解决方案。
其他文献
可靠的过程测量数据是化工过程正常有效运行的关键,随着日益增加的信息计算机的使用,大量的数据被获得并且用于生产控制和优化的整个过程。化工过程中经常是利用这些测量数据
该论文的研究是在国家"八主三"项目"用于生物工程的微操作机器人系统样机"的资助下进行的,研究目标是对机器人系统中的视觉反馈技术展开深入的研究,并实现整个系统的软件控制
小型专用无线I/O系统,是应用于焊接工业现场的无线专用数据采集系统,是焊接质量监控系统中的数据采集节点。其功能是将焊接过程的现场数据(如焊接电流,焊接电压和工件转速等)
预测控制是控制理论中充满活力的部分,近些年来,它与神经网络技术的结合,更使其焕发出新的青春.该文在充分吸收前人研究成果的基础上,做了以下几个方面的工作:通过改进预测控
作为软测量建模重要的方法,神经网络建模由于无需精确的数学公式,具有较强的非线性映射能力,得到了广泛的应用。同时神经网络建模在训练算法,模型训练等方面仍有较大提升空间