论文部分内容阅读
近几年来随着信息技术的发展,传统数据挖掘领域正面临着前所未有的挑战。其中最大挑战来源于数据的改变,由传统的针对数据库静态数据挖掘,变为针对数据流的实时动态挖掘。数据流的特点是海量性(数据无法全部保存),实时性(对处理速度有一定要求)及不稳定性(存在概念漂移)。目前,数据流挖掘的热点研究领域包括信用卡欺诈监测、网络安全监控、传感器数据监控和电网供电等方面。在动态数据流环境下,数据高速到达,对分类方法的性能要求高,传统分类方法难以适应。同时,动态数据流还存在概念漂移现象,即随着数据的不断到达,隐含在数据中的知识可能会随时间发生变化。这需要对分类模型进行动态更新。而针对数据挖掘设计的方法面对概念漂移问题往往失效,因此,传统的分类方法不适用于动态数据流的分类,需要提出新的分类方法。概念漂移是指隐含在数据中的概念随着时间变化的现象。当概念漂移发生时,需要对模型进行调整以适应新的变化。概念相似性是概念漂移的补充,当两个数据集之间概念相似时,则认为概念漂移没有发生,利用这样的性质,可以简化数据流分类时的复杂度。针对此问题,结合KL散度计算概念漂移的方法,提出了一种使用KL散度判断概念相似度的方法。使用KDQ树对数据集进行划分,并利用Bootstrap确定相似度阈值,从而实现了概念相似度的计算。针对数据流的动态变化性,基于概念相似度方法,出了一种新的数据流半监督分类模型。该模型首先对数据流进行划分,根据划分后的数据集的概念相似性训练多个分类器,根据新到数据的概念相似度选择合适的分类器进行分类,具有自适应能力;其次,模型通过设计一种遗忘机制从集成环境中删除的长期闲置的个体分类器。本模型可以同时检测缓慢的以及剧烈的概念漂移,保证模型的性能。利用人工数据集及真实数据集对模型进行了评估。实验表明所提出的基于概念相似度的半监督分类模型可以同时对剧烈的概念漂移及缓慢的概念漂移进行分类,具有良好的适应能力。针对数据流的海量性,提出了一种高度并行化的基于MapReduce框架的动态数据流分类算法,该方法基于极端支持向量机的增量学习方法,对数据流概念漂移进行实时跟踪和学习,同时构造权矩阵对误差进行修正,提升模型的抗干扰能力。并通过遗忘因子逐次削弱旧样本的影响,从而增强新样本的作用。实验表明该方法具有良好的并行性能,同时能够高效的处理动态数据流中的概念漂移问题。具有良好的适应性。