数据流分类中概念漂移及噪声处理研究

来源 :天津理工大学 | 被引量 : 4次 | 上传用户:limeijian168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络和信息技术的快速发展,股票交易市场、气象监控、网络安全、电子商务等众多应用领域都产生了大量的数据,其中这些数据以流的形式存在,通常称之为数据流。这些数据中蕴含着大量的有价值的知识亟待挖掘,作为数据挖掘的重要分支,分类具有重要的应用价值,因此数据流分类技术已成为数据挖掘的热点之一。由于数据流的快速性、连续性和不可重复性三个特点,使之传统的数据挖掘算法难以有效地对其数据进行处理。而且,数据流中数据隐含的目标概念可能会随着时间或者环境的变化而改变,即概念漂移。另一方面,在现实环境中噪声数据不可避免,噪声数据的存在同样影响了数据流分类模型的分类精度。因此如何有效地检测概念漂移和处理噪声数据给数据流分类挖掘技术带来了极大的挑战。本文针对数据流分类挖掘中概念漂移和噪声处理的问题展开了下面工作的研究:(1)概述并分析了已有的数据流分类挖掘算法在处理概念漂移和噪声数据问题上的优缺点。(2)针对数据流分类中概念漂移的处理存在的问题,基于LDA(linear discriminantanalysis)思想,提出了一种数据流分类算法IUDE(Incremental Updated Discriminanteigenspace)。该算法通过分析数据的特征空间,建立数据特征空间的模型,使用最近邻分类技术对新的数据进行分类。算法中使用增量的LDA方法来更新数据的特征空间来处理渐进式的概念漂移,同时使用错误率方差MSE(Mean Square Error)模型来处理突变式的概念漂移。实验表明,该算法可以很好解决渐进式和突变式两种类型概念漂移同时发生的数据流分类精度不高的问题。(3)当隐含概念漂移的数据流中存在噪声数据时,现有的数据流分类算法的分类精度明显下降。针对该问题,提出了一种处理数据流中噪声数据的方法FDBSCAN(Fast-DBSCAN),它是DBSCAN(Density Based Spatial Clustering of Applicationwith Noise)聚类算法的改进算法,并基于此设计了新的数据流分类算法NDSC(NoiseData Streams Classification)。同典型的数据流分类算法相比,实验结果表明了该方法对噪声数据处理的有效性。
其他文献
随着互联网开放程度的加大以及信息交流与共享的进一步增强,通过网络来传播恶意代码成为恶意代码入侵的主要形式。同时,随着恶意代码编写者水平的提高,恶意代码的欺骗性和隐蔽性
现代易货贸易的兴起为电子商务注入了新的活力,也为企业解决资金困难的问题带来了便利。易通网是在现代易货贸易的基础上,开发的一个全新的面向企业的易货交易平台。在传统的电
图像修复技术,一般地,是指对图像中指定信息缺损区域进行视觉上合理填充以恢复图像完整性的过程,并且观察者事后难以察觉图像曾经缺损或被修复,从而达到各种特定的图像处理目的。
随着网络的发展,Internet上出现了越来越多的信息,XML(eXtensibleMarkup Language)是当前网络上最流行的交换和存储数据的工具。不同信息源的XML文档可能表示相同或相似的信息,但
随着智能手机等移动电子设备的广泛使用,移动群智感知技术也得到发展,应用前景广阔。在移动群智感知中,感知平台需要招募大量用户来协同完成一项包含众多感知任务的复杂工作
这篇论文研究移动传感应用中蜂窝网预算有效利用的问题。近年来,随着智能手机和可穿戴设备越来越普及,移动传感应用也吸引了越来越多的注意。由于WiFi覆盖范围不足和用户蜂窝
残疾人是一个数量众多、特性突出、特别需要帮助的群体。由于自身残疾的影响和外界环境的障碍,残疾人特别是视力残疾人在获取信息方面存在较大的困难。随着社会信息化的加速,
作为物联网大潮流下的M2M产业,虽然世界各国政府都在大力支持和推行,但目前物联网和M2M的发展却趋于狭隘,虽然实际应用已在我们的日常生活和工作中通过商业运营的模式展开,但局限
无论在民用或军事领域,无线传感器网络均具有广泛的应用前景,如用于战场环境下敌情的监测、智能家居、珍稀野生动物监测等。一个典型的无线传感器网络由一个基站和大量普通的传
网页隐秘通信是指在不影响网页正常使用的前提下利用网页中的信息冗余传递私密信息。网页隐秘通信检测与网页隐秘通信相互对立,两者在不断对抗中相互促进共同提高,通过网页隐