论文部分内容阅读
数据流分类问题是数据挖掘领域中重要的研究方向之一,其主要特征为数据序列以流的形式不断地产生,如传感器网络异常检测、信用卡欺诈行为监测、天气预报和电价预测等实际问题中,新的数据序列都以快速、实时、连续的形式不断地到达.存在于数据流中的核心问题之一是数据流中往往存在概念漂移现象,即数据分布会随着时间的推移而发生改变.这种数据分布的不稳定特性大大影响了分类模型的性能和更新代价.在概念漂移数据流环境中,概念经过一段时间之后可能重复出现,这种概念重现现象导致算法不断地在相同的概念上学习新模型,浪费模型训练时间甚至降低其总体性能.另外,数据类分布不平衡以及实例属于多标签等问题也影响着模型在概念漂移数据流上的分类性能,其中前者期望模型能更准确预测少数类实例,而后者期望模型能准确预测实例所属的标签集合.针对以上问题,本文在深入分析包含概念漂移的数据流特性及相关理论的基础上,研究并提出新的面向概念漂移数据流问题的分类算法.主要贡献和创新点如下.(1)提出一种基于自适应滑动窗口的数据流集成算法(AWDE).不同于传统集成算法,AWDE使用自适应滑动窗口检测方法为每个基分类器自适应地构建相应训练数据集,具体过程如下:首先,使用自适应滑动窗口检测算法显式地捕获概念漂移;然后,根据捕获的概念漂移信息,选择滑动窗口中的部分数据构建基分类器,解决基于数据块集成对块大小依赖的问题;最后,通过兼顾准确率和差异性的指标监督基分类器选择和加权,以提升分类器的泛化能力.实验结果表明,AWDE能有效地解决多种类型概念漂移问题,在保证较高分类准确率前提下,有效地减少模型的训练时间及内存消耗.(2)提出一种基于概念转移图模型的重复概念发现算法(RDP).与传统数据流分类算法不同,所提出的图模型中每个结点存储一个基分类器(历史概念),边上的权重能有效反映概念的重复性问题.在学习阶段,采用基于Jensen-Shannon散度的检测方法来发现概念漂移和重复概念,并以此来指导图模型的更新;在预测阶段,根据建立的图模型,采用单分类器或者集成方式预测未知实例.此外,为了加速概念转移图模型的学习效率和压缩图模型的存储空间,采用基于对称不确定性的特征选择方法对数据进行预处理.在人工合成和真实数据集的实验结果表明,较之于传统面向重复概念发现的算法,RDP在保持更优分类性能的前提下,大幅度降低模型训练、更新及预测时间.(3)提出一种基于双重代价敏感的概念漂移数据流分类算法(TSCS).与方法(1)和(2)不同,TSCS用于解决概念漂移数据流环境下的类不平衡问题,其训练过程包含两个阶段:预处理阶段和模型构建阶段.在预处理阶段,TSCS采用基于代价敏感的特征选择策略,选择能有效平衡样本分布的特征子集空间;在模型构建阶段,若有概念漂移现象,在特征子空间中学习一个新的基分类器,则搜索并置换集成分类器中最差的分类器.在预测过程中,TSCS采用基于代价敏感加权的集成方式对未知类别的实例进行预测.与已有算法相比,TSCS能够在人工合成及真实的类不平衡概念漂移数据流上取得更好的分类效果.(4)提出一种基于多标签划分和依赖关系的概念漂移数据流分类算法(LPLDC).该算法主要用于解决概念漂移数据流中实例属于多个标签的问题,其基本思想是:在模型训练过程中,将原始较大的标签集随机地划分为多个互不相交的标签子集,并使用概率分类器链算法在每个标签子集上训练一个分类器;当发生概念漂移时,根据每个基分类器在最新数据块上的性能更新相应权值,并采用动态加权策略预测待分类实例.随机划分标签集的作用是充分利用标签间依赖关系并降低概率分类器链的学习时间复杂度;同时,在算法中嵌入了自适应滑动窗口检测算法来处理概念漂移.实验结果表明,LPLDC在大多数数据集上能够更有效地预测实例的标签集合,且更适合概念漂移的环境.本文研究工作针对数据流学习过程中亟待解决的问题,提出一系列行之有效的解决方案,构造更加完善的概念漂移数据流学习模式.所提方案在保持算法的分类效率同时,降低了时空开销,提升了算法的概念漂移适应能力,从而为概念漂移的理论研究和实用化,提供新的研究思路和理论依据.