分布式环境下谱聚类算法研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户：songyang1988

【摘要】

：

聚类分析是人类一项最基本的认识活动,是机器学习中的经典问题。所谓聚类就是按照事物的某些属性,把不同的事物聚集成类,使类间的相似性尽可能小,类内的相似性尽可能大。κ-m

【作者】

：

孟超

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2013年01期

【关键词】

：

谱聚类分布式计算 Nystrom算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类分析是人类一项最基本的认识活动,是机器学习中的经典问题。所谓聚类就是按照事物的某些属性,把不同的事物聚集成类,使类间的相似性尽可能小,类内的相似性尽可能大。κ-means聚类算法作为一种基于中心的聚类算法,是一种比较经典和普遍的算法。当数据集为凸球型分布时,κ-means算法有很好的性能,能够得到较好的聚类结果。但是当样本空间不为凸时,κ-means算法往往会失效,而且算法利用迭代最优化方法求解最优解,因此算法会陷入局部最优解的情况。为了能在任意形状的样本空间上聚类,且能够收敛于全局最优解,近几年新出现了一种无监督的聚类算法即谱聚类算法克服了κ-means算法陷入局部最优解的缺点。该算法具有识别任意形状样本空间的能力,不会陷入局部最优解,能够很好的应用在实际问题中。但是应用在海量数据样本空间时,谱聚类算法会受到计算机存储空间不足和运行时间的限制,为了使算法能够在海量数据情况下使用,我们可以将该算法移植到分布式环境中,同时使用两种不同的方法将矩阵稀疏化,减小对内存空间的使用。本文重点是如何实现基于分布式环境下的高效谱聚类算法,具体内容包括：1.对相似矩阵进行稀疏化,同时比较两种不同的稀疏化方法的优劣。这里我们采用的两种稀疏化的方法有t最近邻方法和Nystrom方法,为了选择一种较优的方法,这里对两种方法从不同角度进行比较。最后通过实验验证我们发现使用t最近邻方法能够得到更好的聚类结果。2.利用以上由t最近邻来实现相似矩阵的稀疏化的方法,我们可以使用MPI模型和谷歌的Map/Reduce系统来搭建我们需求的分布式环境。之后将谱聚类算法移植到分布式平台上进行验证,结果表明,算法能够充分的利用各节点的资源,提高算法的运行效率,具有良好的扩展性,为海量数据的处理提供了很好的解决方案。

其他文献

基于测量数据冗余性的显著误差检测方法

可靠的过程测量数据是化工过程正常有效运行的关键,随着日益增加的信息计算机的使用,大量的数据被获得并且用于生产控制和优化的整个过程。化工过程中经常是利用这些测量数据

学位

数据校正小波包变换阈值处理贝叶斯分类NT-MT方法

微操作机器人视觉反馈技术与系统软件实现

该论文的研究是在国家"八主三"项目"用于生物工程的微操作机器人系统样机"的资助下进行的,研究目标是对机器人系统中的视觉反馈技术展开深入的研究,并实现整个系统的软件控制

学位

微操作机器人系统显微视觉反馈技术傅立叶谱系统软件控制

小型专用无线I/O系统设计

小型专用无线I/O系统,是应用于焊接工业现场的无线专用数据采集系统,是焊接质量监控系统中的数据采集节点。其功能是将焊接过程的现场数据(如焊接电流,焊接电压和工件转速等)

学位

数据采集Zigbee嵌入式系统

多变量预测控制及神经网络控制若干问题研究

预测控制是控制理论中充满活力的部分,近些年来,它与神经网络技术的结合,更使其焕发出新的青春.该文在充分吸收前人研究成果的基础上,做了以下几个方面的工作:通过改进预测控

学位

自适应控制预测控制神经网络非线性控制多变量控制PI控制变尺度泰勒展开

融合专家知识的神经网络建模的研究及其在软测量中的应用

作为软测量建模重要的方法,神经网络建模由于无需精确的数学公式,具有较强的非线性映射能力,得到了广泛的应用。同时神经网络建模在训练算法,模型训练等方面仍有较大提升空间

学位

神经网络专家知识AEA优化灵敏度

分布式环境下谱聚类算法研究

其他学术论文