动态数据流分类方法研究

被引量 : 0次 | 上传用户:usrrmhta
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来随着信息技术的发展,传统数据挖掘领域正面临着前所未有的挑战。其中最大挑战来源于数据的改变,由传统的针对数据库静态数据挖掘,变为针对数据流的实时动态挖掘。数据流的特点是海量性(数据无法全部保存),实时性(对处理速度有一定要求)及不稳定性(存在概念漂移)。目前,数据流挖掘的热点研究领域包括信用卡欺诈监测、网络安全监控、传感器数据监控和电网供电等方面。在动态数据流环境下,数据高速到达,对分类方法的性能要求高,传统分类方法难以适应。同时,动态数据流还存在概念漂移现象,即随着数据的不断到达,隐含在数据中的知识可能会随时间发生变化。这需要对分类模型进行动态更新。而针对数据挖掘设计的方法面对概念漂移问题往往失效,因此,传统的分类方法不适用于动态数据流的分类,需要提出新的分类方法。概念漂移是指隐含在数据中的概念随着时间变化的现象。当概念漂移发生时,需要对模型进行调整以适应新的变化。概念相似性是概念漂移的补充,当两个数据集之间概念相似时,则认为概念漂移没有发生,利用这样的性质,可以简化数据流分类时的复杂度。针对此问题,结合KL散度计算概念漂移的方法,提出了一种使用KL散度判断概念相似度的方法。使用KDQ树对数据集进行划分,并利用Bootstrap确定相似度阈值,从而实现了概念相似度的计算。针对数据流的动态变化性,基于概念相似度方法,出了一种新的数据流半监督分类模型。该模型首先对数据流进行划分,根据划分后的数据集的概念相似性训练多个分类器,根据新到数据的概念相似度选择合适的分类器进行分类,具有自适应能力;其次,模型通过设计一种遗忘机制从集成环境中删除的长期闲置的个体分类器。本模型可以同时检测缓慢的以及剧烈的概念漂移,保证模型的性能。利用人工数据集及真实数据集对模型进行了评估。实验表明所提出的基于概念相似度的半监督分类模型可以同时对剧烈的概念漂移及缓慢的概念漂移进行分类,具有良好的适应能力。针对数据流的海量性,提出了一种高度并行化的基于MapReduce框架的动态数据流分类算法,该方法基于极端支持向量机的增量学习方法,对数据流概念漂移进行实时跟踪和学习,同时构造权矩阵对误差进行修正,提升模型的抗干扰能力。并通过遗忘因子逐次削弱旧样本的影响,从而增强新样本的作用。实验表明该方法具有良好的并行性能,同时能够高效的处理动态数据流中的概念漂移问题。具有良好的适应性。
其他文献
近年来,随着工业化的加速,我国每年CO2排放总量不断增加。CO2作为一种主要的温室效应气体,其引起的环境问题已受到越来越多的关注。目前,工业上广泛应用的CO2捕集方法主要有
随着我国改革开放的深入和社会经济的长足发展,公权腐败案件呈易发、多发态势,人民群众身受其害,深恶痛绝。不仅如此,它还破坏着社会稳定和谐,危及党执政地位,歪曲着国家性质,是关系
改革开放以来,我国城市化发展取得了巨大的成就。与此同时,我国不断调整产业结构以实现产业结构优化升级。如今,我国经济社会发展已经进入快速转型、整体推进的关键时期。“
隔膜泵是流体泵的一个重要种类,主要满足小型化、低输出性能方面的需求,近年在医药生物、精细化工、航空航天、微机电系统等领域的应用越来越广泛,显示着良好的发展前景。目前隔
对"一带一路"倡议下东北地区基础设施投资面临的形势和任务进行了研究。分析了沿线国家基础设施建设现状,指出"一带一路"倡议为东北振兴带来了难得的机遇,并对东北地区跨境基
微流控芯片将化学分析中的样品提取、分离、分析、处理等过程集成在平方厘米量级的芯片上完成,分析工作的微量化、精细化和自动化,使其在化工、医疗、航天等领域得到广泛应用
个人建构心理学是由美国著名的心理学家乔治·亚历山大·凯利创立的一个心理学思想体系。个人建构心理学既是一种认知的人格理论,也是一种心理治疗的方法和技术,某种程度上还是
<正>(一)综合地图集与区域研究 综合地图集的编制,可算是现代地图集发展中的一支主流。继20世纪30年代编制国家地图集的热潮之后,最近期间,综合地图集的编制又大为活跃。 综
目的:本研究旨在研究熊果酸对急性髓细胞白血病t(8;21)阳性细胞株Kasumi一1及Skno-1细胞的增殖抑制、诱导凋亡及诱导分化的机制,从而发挥其抗白血病的作用。方法:设置实验组及对
随着改革开放以来我国人均收入的提高,居民的饮食结构也发生了很大的变化,对奶牛需求量呈两位数的速率增长。和许多粗放型发展方式一样,奶牛养殖业也存在着种种弊端。一是养