论文部分内容阅读
数据流挖掘是数据挖掘中的一个重要部分,相对于传统的静态数据,数据流连续、单遍扫描、快速变化、海量无穷的特点使数据流的挖掘面临着新的挑战,因此静态数据的分析技术已不适合于数据流分析,设计单遍扫描、实时、快速的算法是非常必要的。作为数据流挖掘的重要组成部分,数据流分类研究也面临同样的问题,分类模型应用在快速到来的数据流上,需要快速给出预测结果。并且实际应用中的数据流分布不是静止不变的,因而为了适应数据分布的动态变化,分类模型必须做出相应的更新或重新训练操作。本文从概念漂移的检测及适应方面着手进行了研究。一方面,针对数据快速流入及变化的特点,提出了基于聚类的分类方法,利用聚类方式将训练集中的数据以相同分布聚类到相同的聚簇中,并基于每个簇训练单独的分类模型,当未知类别的新记录到来时,用与其最接近的模型进行预测分类。同时在分类过程中采用更新机制维持算法总体分类精确度,以及通过从误分类记录中启发式学习训练新分类器以适应概念漂移;另一方面,研究了概念重复规律性出现的情况下,如何减少模型的更新以提高分类预测的速度及精度,考虑实际应用中,数据流概念的数量的有限性,并且随着时间的推移,这些概念会周期性重复出现,因此提出了充分利用历史概念的信息,利用已存在的分类模型对数据流进行分类,进而提高分类的速度。实验表明,本文提出的基于聚类的数据流分类方法在分类准确性和运行效率方面较传统方法具有更大的优势,而对具有周期性概念漂移的数据流的分类算法在保证分类精度的前提下,提高了在线分类工作的效率。