论文部分内容阅读
随着信息产业的发展,人们面临的数据量越来越大。为了从这些大规模数据中获得内在的关系和隐含的信息,数据挖掘作为一种重要的方法越来越受到人们的重视,而聚类分析是数据挖掘的一个重要研究方向。近些年来,对聚类分析的研究有了长足的发展,提出了很多经典的算法。本文研究以大规模生产调度为背景的数据的处理问题,提出了一种部分优先的聚类算法,并进一步将其应用于一般大数据集的处理。本文共分为两部分。在第一部分,我们详细论述了部分优先聚类算法的步骤。事实上,在大规模生产调度问题中,常常会出现待排序工件规模太大从而难以直接处理的问题。这时候,分批处理是一种较为合理的可行策略。部分优先聚类算法考察整个数据集,根据“紧急优先”等调度规则,确定一个需要优先处理的类。该算法的具体实现过程为:首先,根据调度规则、数据密度等信息确定一个需要优先处理的典型数据;然后,利用该典型数据得到需要优先处理的“优先类”;接着,将该优先类中的点从原数据集中删除,以简化待处理数据集。重复该过程,直到剩余数据集足够小,不再满足条件为止。最后,把剩余数据分配到最近的类中,从而将原数据集最终分类。该算法在大规模生产调度问题上取得了成功的应用。为了进一步验证该算法的泛化能力,我们将该算法应用到几个不同规模的数据集中进行验证分析。结果证明,该方法能够适用于不同规模的数据集。而且精度可达到90%左右。在最后一部分,为提高算法的精度,我们对部分优先聚类算法的结果进行聚类融合。实验分析表明,聚类融合能很好的克服单一算法的不足。不过运行时间较单一的部分优先聚类算法长。实验数据表明,聚类融合不仅提高了聚类精度,同时也改善了聚类算法的稳定性。