一种面向大数据集的部分优先聚类算法

被引量 : 0次 | 上传用户:liu3352
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息产业的发展,人们面临的数据量越来越大。为了从这些大规模数据中获得内在的关系和隐含的信息,数据挖掘作为一种重要的方法越来越受到人们的重视,而聚类分析是数据挖掘的一个重要研究方向。近些年来,对聚类分析的研究有了长足的发展,提出了很多经典的算法。本文研究以大规模生产调度为背景的数据的处理问题,提出了一种部分优先的聚类算法,并进一步将其应用于一般大数据集的处理。本文共分为两部分。在第一部分,我们详细论述了部分优先聚类算法的步骤。事实上,在大规模生产调度问题中,常常会出现待排序工件规模太大从而难以直接处理的问题。这时候,分批处理是一种较为合理的可行策略。部分优先聚类算法考察整个数据集,根据“紧急优先”等调度规则,确定一个需要优先处理的类。该算法的具体实现过程为:首先,根据调度规则、数据密度等信息确定一个需要优先处理的典型数据;然后,利用该典型数据得到需要优先处理的“优先类”;接着,将该优先类中的点从原数据集中删除,以简化待处理数据集。重复该过程,直到剩余数据集足够小,不再满足条件为止。最后,把剩余数据分配到最近的类中,从而将原数据集最终分类。该算法在大规模生产调度问题上取得了成功的应用。为了进一步验证该算法的泛化能力,我们将该算法应用到几个不同规模的数据集中进行验证分析。结果证明,该方法能够适用于不同规模的数据集。而且精度可达到90%左右。在最后一部分,为提高算法的精度,我们对部分优先聚类算法的结果进行聚类融合。实验分析表明,聚类融合能很好的克服单一算法的不足。不过运行时间较单一的部分优先聚类算法长。实验数据表明,聚类融合不仅提高了聚类精度,同时也改善了聚类算法的稳定性。
其他文献
从风力发电行业的发展历程来看,变速变桨距风电机组是当今乃至今后一段时期内的业内主流机型,风电机组的大型化发展又针对机组运行的安全性与运行寿命的改善,提出了减载控制
聚众犯罪是我国刑法规定的一种犯罪类型,其中的一些犯罪也是刑事司法实践中较为常见的。聚众犯罪以首要分子聚集多人、形成群体实施危害行为为特征,对社会具有很大的破坏性,
兴趣是最好的老师,小学数学的教学需要激发学生的兴趣,如何在教学中激发、巩固、强化学生学习数学的兴趣,同样是一门很深的学问,也是我们每一位数学教师经常研究的课题。对此
随着中西方文化交流日益频繁,越来越多的西方读者渴望了解璀璨的中国文化。近些年来,文化翻译也受到了国内外学者的普遍重视。《吾国与吾民》是林语堂在西方文坛的成名作与代
研究目的:①观察比较16周完全呼吸和健身气功·六字诀锻炼是否会引起受试者HRV各指标的改变,探讨两种锻炼对人体心血管自主神经调节功能的影响②评价两种不同的锻炼方式对自
风能是当前最有发展前景的一种新型能源,它是取之不尽用之不竭的能源,还是一种无污染、可再生的绿色能源。现代风机经历了从定桨距控制到变桨距控制的发展过程,随着风电技术
畜牧业是国民经济的重要组成部分,又是实施农业结构战略性调整的突破口,本文通过对我国畜牧生产现状的调查,分析了目前我国畜牧生产中存在的主要问题,重点提出了一些加快我国
随着时间的推移和国民经济的发展,许多国道省道进入使用年限的后期,发生了许多破坏现象。针对这种现象,许多科研工作者发明了一种有效、经济的改造破损的水泥混凝土路面的方
随着人口老龄化和高龄化程度的加深、家庭养老功能的弱化、单纯的机构养老发展不足的现实背景下,居家养老成为现行养老模式的主要发展方向。依托社区,通过建立专业化服务机构