概念漂移数据流分类算法研究

来源 :北京交通大学 | 被引量 : 8次 | 上传用户:joeworms
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流分类问题是数据挖掘领域中重要的研究方向之一,其主要特征为数据序列以流的形式不断地产生,如传感器网络异常检测、信用卡欺诈行为监测、天气预报和电价预测等实际问题中,新的数据序列都以快速、实时、连续的形式不断地到达.存在于数据流中的核心问题之一是数据流中往往存在概念漂移现象,即数据分布会随着时间的推移而发生改变.这种数据分布的不稳定特性大大影响了分类模型的性能和更新代价.在概念漂移数据流环境中,概念经过一段时间之后可能重复出现,这种概念重现现象导致算法不断地在相同的概念上学习新模型,浪费模型训练时间甚至降低其总体性能.另外,数据类分布不平衡以及实例属于多标签等问题也影响着模型在概念漂移数据流上的分类性能,其中前者期望模型能更准确预测少数类实例,而后者期望模型能准确预测实例所属的标签集合.针对以上问题,本文在深入分析包含概念漂移的数据流特性及相关理论的基础上,研究并提出新的面向概念漂移数据流问题的分类算法.主要贡献和创新点如下.(1)提出一种基于自适应滑动窗口的数据流集成算法(AWDE).不同于传统集成算法,AWDE使用自适应滑动窗口检测方法为每个基分类器自适应地构建相应训练数据集,具体过程如下:首先,使用自适应滑动窗口检测算法显式地捕获概念漂移;然后,根据捕获的概念漂移信息,选择滑动窗口中的部分数据构建基分类器,解决基于数据块集成对块大小依赖的问题;最后,通过兼顾准确率和差异性的指标监督基分类器选择和加权,以提升分类器的泛化能力.实验结果表明,AWDE能有效地解决多种类型概念漂移问题,在保证较高分类准确率前提下,有效地减少模型的训练时间及内存消耗.(2)提出一种基于概念转移图模型的重复概念发现算法(RDP).与传统数据流分类算法不同,所提出的图模型中每个结点存储一个基分类器(历史概念),边上的权重能有效反映概念的重复性问题.在学习阶段,采用基于Jensen-Shannon散度的检测方法来发现概念漂移和重复概念,并以此来指导图模型的更新;在预测阶段,根据建立的图模型,采用单分类器或者集成方式预测未知实例.此外,为了加速概念转移图模型的学习效率和压缩图模型的存储空间,采用基于对称不确定性的特征选择方法对数据进行预处理.在人工合成和真实数据集的实验结果表明,较之于传统面向重复概念发现的算法,RDP在保持更优分类性能的前提下,大幅度降低模型训练、更新及预测时间.(3)提出一种基于双重代价敏感的概念漂移数据流分类算法(TSCS).与方法(1)和(2)不同,TSCS用于解决概念漂移数据流环境下的类不平衡问题,其训练过程包含两个阶段:预处理阶段和模型构建阶段.在预处理阶段,TSCS采用基于代价敏感的特征选择策略,选择能有效平衡样本分布的特征子集空间;在模型构建阶段,若有概念漂移现象,在特征子空间中学习一个新的基分类器,则搜索并置换集成分类器中最差的分类器.在预测过程中,TSCS采用基于代价敏感加权的集成方式对未知类别的实例进行预测.与已有算法相比,TSCS能够在人工合成及真实的类不平衡概念漂移数据流上取得更好的分类效果.(4)提出一种基于多标签划分和依赖关系的概念漂移数据流分类算法(LPLDC).该算法主要用于解决概念漂移数据流中实例属于多个标签的问题,其基本思想是:在模型训练过程中,将原始较大的标签集随机地划分为多个互不相交的标签子集,并使用概率分类器链算法在每个标签子集上训练一个分类器;当发生概念漂移时,根据每个基分类器在最新数据块上的性能更新相应权值,并采用动态加权策略预测待分类实例.随机划分标签集的作用是充分利用标签间依赖关系并降低概率分类器链的学习时间复杂度;同时,在算法中嵌入了自适应滑动窗口检测算法来处理概念漂移.实验结果表明,LPLDC在大多数数据集上能够更有效地预测实例的标签集合,且更适合概念漂移的环境.本文研究工作针对数据流学习过程中亟待解决的问题,提出一系列行之有效的解决方案,构造更加完善的概念漂移数据流学习模式.所提方案在保持算法的分类效率同时,降低了时空开销,提升了算法的概念漂移适应能力,从而为概念漂移的理论研究和实用化,提供新的研究思路和理论依据.
其他文献
<正>目前,市场各类口罩产品层出不穷,大都宣称具有防尘、防霾功能,对PM2.5等微粒有很好的过滤效果。实际的防护效果真如宣传一样吗?近日,浙江省消费者权益保护委员会公布了口
期刊
随着我国全民阅读时代的来临和教育理念的革新,少年儿童的阅读问题得到了社会各界越来越多的关注,公共图书馆作为我国公共文化服务的一线窗口,是开展少年儿童阅读服务的主要
现阶段我国图书馆资源的建设和应用水平相对较低,无论是公共图书馆还是校园图书馆都存在各种各样的问题,为了解决目前我国图书馆资源建设及其利用方面出现各种不足,图书馆联
采用铸铁屑内电解法处理餐饮废水,考察了反应条件对除油率的影响。结果表明,不需调节原水的pH值,选用10~16目的铸铁屑,在其投量为100g/L、反应时间为45min、温度约为30℃的条件下,铸
文章以吉隆坡新捷运工程地下北段A标工程为例,基于Horn的三维楔形体破坏理论,采用极限平衡分析法,推导出了在土压及全水头压力作用下满舱土、半舱土、无土三种状态下土舱压力
党的十八大、十九大以来,学者们在新时代语境下对中华传统文化创造性转化的研究呈现快速发展的态势。当前,学术界在现实逻辑、多重挑战、多维路径等方面对传统文化创造性转化
随着医院智能化水平的不断发展,越来越多的智能化系统运用到了医院的各个环节中。详细分析了医院智能化系统的特点,提出了医院智能化系统的建设目标,设计了基于服务类型的医院智
<正>长三角科技资源共享服务平台日前正式开通上线,只要登录其官网就可以足不出户纵览长三角科技资源信息并预约使用。仪器预约、研发托管、政策资讯、科技社群、培训活动等
互联网作为信息获取的重要渠道,包含内容广,传播速度快,在网路信息安全方面存在一个日益的问题一些用户为了避免网络过滤系统对信息文本内容的搜索和检查,故意将一些不良、非
以4~10年生‘绿岭’核桃树为试材,研究了核桃的开花物候期,不同树龄不同结果母枝雌雄花芽构成比例以及不同时期喷施不同浓度石硫合剂对雌花座果的影响。结果表明:‘绿岭’核桃