基于主动学习的数据流分类器研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:sunyanzi168168168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,实时监控系统、物联网、Internet传输信息等环境产生了大量数据流,这类数据具有快速到达、海量潜在无限和概念漂移的特点。这些特点使得无法使  用传统的数据分类方法进行分类,需要新的适用于数据流的分类方法。此外,在真实的数据流环境中,大量实例快速到达,而对实例进行标记是需要时间和成本的,这就使得及时获得充足的标记数据是不现实的,此时如果用监督学习的方法训练分类器将产生弱分类器。另外在真实环境中,有许多应用需要快速地对大规模的数据进行分类,而单机的分类器不能满足此时的分类需求。  针对真实数据流环境中上述两方面问题,本文提出了一种新颖的基于主动学习的数据流分类器,来解决标记数据不足而可能导致弱分类器的问题;并且基于免费、开源、分布式的实时计算系统Storm,提出一种可以快速地对大规模数据进行分类的数据流分类器。本文的主要工作与研究成果如下:  第一,研究了数据流分类相关的技术。首先介绍了数据挖掘的概念、过程以及功能。然后介绍了分类的概念、一般过程以及经典的分类算法。接着介绍了数据流的定义和特征,数据流的处理模型和常见的处理方法。最后介绍了数据流分类的一般过程、一些著名的数据流分类算法以及数据流分类器的评估标准。  第二,提出了一种新颖的基于主动学习的分类器 DCA。针对标记数据不足而可能导致弱分类器的问题,DCA在集成分类器之上用主动学习的方法,只提交小部分实例给专家进行人工标记。选择的方法是依据分类时该实例的分类置信度,集成分类器对此实例的分类意见越统一,分类置信度越高,反之则越小。认为分类置信度高的实例的预测类别很可能就是它的真实类别,而分类置信度低的实例的预测类别很可能不是真实类别,只需将分类置信度低的实例提交专家。通过时间分析,证实了DCA的有效性,并通过在仿真数据集和真实数据集上的实验,验证了DCA的正确性。  第三,提出了基于 Storm的分类器 RCL。真实数据流分类环境许多应用需要快速地分类大规模数据。自行设计一个分布式的分类器不仅困难而且没有必要,基于Hadoop的方案是可行的但不是最佳的,经过调研最终选择了基于Storm的设计方案。Storm是一个免费、开源、分布式的实时计算系统。RCL将DCA运用于Storm上将得到一个可以快速处理大规模流数据的分类器。通过在仿真数据集和真实数据集上进行实验,计算RCL分类器的加速比、并行效率和平均分类器精度,证明了RCL分类器的有效性和正确性。
其他文献
随着互联网应用的普及以及存储技术的发展,经常会遇到海量的结构复杂的数据需要分析,如微博信息数据、生物学数据、电子商务数据和移动信息数据等等,这些数据都可以用树结构
随着人们对无线业务尤其是多媒体业务需求量的不断增加,如何高效地利用有限的无线资源已成为无线通信技术发展中的严峻挑战。为此,OFDMA(OrthogonalFrequency Division Multipl
学位
使用图形用户界面(GUI)进行人机交互已经成为当今软件人机交互的主流,所以GUI的测试显得异常重要。但是测试是一项很困难的工作,一个重要的原因是背景事件会影响测试结果,基于模型
运动模糊是在相机曝光时间内,由于场景和相机之间发生了相对位移而产生模糊图像的一种物理现象。运动模糊图像在现实生活中无处不在,因此,对运动模糊的研究具有十分广泛和重要的
作为网络百科全书的代表,维基百科已成为广大用户获取知识的资源库,所有维基百科条目按类别组织而成,整个维基百科类别系统构成了一个具有层次结构关系的分类体系,用户可以根
现场直播中为了满足电视观众兴趣点差异化的欣赏需求,本文提出了一种多场景电视的概念,同时提供多个现场场景的视频,使观众可以根据自己的兴趣从中自主选择收看一个到多个场
网络流量分析与异常检测是互联测量的重要应用之一。网络流量进行深入的分析对网络性能评估、网络安全以及保证网络有效的运行有着重要的意义。  目前,IPv6协议作为下一代互
线性代数委托计算有着重要的理论和应用价值。随着计算机技术朝着多极化方向发展,计算资源分布越来越不均匀,而委托计算技术可以使得资源分配更合理、更灵活,因此对委托计算进行
输送带的应用领域随着工业化推进及传动技术的发展而不断扩大,输送带的安全寿命使用期是衡量输送机运转效率及安全运输的重要指标。输送带受材质因素、环境因素及物料因素,运输