一种面向大数据集的部分优先聚类算法

被引量 : 0次 | 上传用户：liu3352

【摘要】

：

随着信息产业的发展,人们面临的数据量越来越大。为了从这些大规模数据中获得内在的关系和隐含的信息,数据挖掘作为一种重要的方法越来越受到人们的重视,而聚类分析是数据挖

【作者】

：

侯德森

【发表日期】

：

2011年期

【关键词】

：

生产调度大规模数据集部分优先聚类典型样本聚类分析聚类融合

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息产业的发展,人们面临的数据量越来越大。为了从这些大规模数据中获得内在的关系和隐含的信息,数据挖掘作为一种重要的方法越来越受到人们的重视,而聚类分析是数据挖掘的一个重要研究方向。近些年来,对聚类分析的研究有了长足的发展,提出了很多经典的算法。本文研究以大规模生产调度为背景的数据的处理问题,提出了一种部分优先的聚类算法,并进一步将其应用于一般大数据集的处理。本文共分为两部分。在第一部分,我们详细论述了部分优先聚类算法的步骤。事实上,在大规模生产调度问题中,常常会出现待排序工件规模太大从而难以直接处理的问题。这时候,分批处理是一种较为合理的可行策略。部分优先聚类算法考察整个数据集,根据“紧急优先”等调度规则,确定一个需要优先处理的类。该算法的具体实现过程为：首先,根据调度规则、数据密度等信息确定一个需要优先处理的典型数据；然后,利用该典型数据得到需要优先处理的“优先类”；接着,将该优先类中的点从原数据集中删除,以简化待处理数据集。重复该过程,直到剩余数据集足够小,不再满足条件为止。最后,把剩余数据分配到最近的类中,从而将原数据集最终分类。该算法在大规模生产调度问题上取得了成功的应用。为了进一步验证该算法的泛化能力,我们将该算法应用到几个不同规模的数据集中进行验证分析。结果证明,该方法能够适用于不同规模的数据集。而且精度可达到90%左右。在最后一部分,为提高算法的精度,我们对部分优先聚类算法的结果进行聚类融合。实验分析表明,聚类融合能很好的克服单一算法的不足。不过运行时间较单一的部分优先聚类算法长。实验数据表明,聚类融合不仅提高了聚类精度,同时也改善了聚类算法的稳定性。

其他文献

兆瓦级风电机组独立变桨距控制系统研究

从风力发电行业的发展历程来看,变速变桨距风电机组是当今乃至今后一段时期内的业内主流机型,风电机组的大型化发展又针对机组运行的安全性与运行寿命的改善,提出了减载控制

学位

模糊控制神经网络变桨距控制

聚众犯罪研究

聚众犯罪是我国刑法规定的一种犯罪类型,其中的一些犯罪也是刑事司法实践中较为常见的。聚众犯罪以首要分子聚集多人、形成群体实施危害行为为特征,对社会具有很大的破坏性,

学位

聚众犯罪基本概念客观行为刑事责任转化犯完善

在数学教学中培养学生学习兴趣

兴趣是最好的老师,小学数学的教学需要激发学生的兴趣,如何在教学中激发、巩固、强化学生学习数学的兴趣,同样是一门很深的学问,也是我们每一位数学教师经常研究的课题。对此

期刊

小学数学课堂教学兴趣培养教法探究

目的论视角下的文化负载词翻译

随着中西方文化交流日益频繁,越来越多的西方读者渴望了解璀璨的中国文化。近些年来,文化翻译也受到了国内外学者的普遍重视。《吾国与吾民》是林语堂在西方文坛的成名作与代

学位

互文性目的论文化负载词翻译策略

完全呼吸及健身气功·六字诀锻炼对心血管自主神经调节功能的影响

研究目的:①观察比较16周完全呼吸和健身气功·六字诀锻炼是否会引起受试者HRV各指标的改变,探讨两种锻炼对人体心血管自主神经调节功能的影响②评价两种不同的锻炼方式对自

学位

完全呼吸健身气功·六字诀心血管自主神经HRV肺功能

风电系统中变桨距控制算法的研究

风能是当前最有发展前景的一种新型能源,它是取之不尽用之不竭的能源,还是一种无污染、可再生的绿色能源。现代风机经历了从定桨距控制到变桨距控制的发展过程,随着风电技术

学位

风力发电变桨距控制Fuzzy-PID塔架振动

我国畜牧生产现状及发展思考

畜牧业是国民经济的重要组成部分,又是实施农业结构战略性调整的突破口,本文通过对我国畜牧生产现状的调查,分析了目前我国畜牧生产中存在的主要问题,重点提出了一些加快我国

期刊

畜牧业生产现状发展对策

亚都医用雾化器原理及维修

期刊

雾化维修故障

厦门G324白加黑罩面改造技术方案与面层细观重构研究

随着时间的推移和国民经济的发展,许多国道省道进入使用年限的后期,发生了许多破坏现象。针对这种现象,许多科研工作者发明了一种有效、经济的改造破损的水泥混凝土路面的方

学位

旧混凝土路面黑色罩面监测工程改造施工CT影像建模技术

人口老龄化背景下的社区居家养老服务研究

随着人口老龄化和高龄化程度的加深、家庭养老功能的弱化、单纯的机构养老发展不足的现实背景下,居家养老成为现行养老模式的主要发展方向。依托社区,通过建立专业化服务机构

学位

人口老龄化养老模式居家养老社区服务

一种面向大数据集的部分优先聚类算法

其他学术论文