基于集成的单标签和多标签数据流分类算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:sunjing123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
与传统的静态数据相比,现代数据多以数据流的形式产生和积累,数据类型方面也越来越常见到多标签类型。数据形式与类型的变化无论对单标签数据流分类还是多标签数据流分类都提出了巨大的挑战。本文针对单标签数据流分类算法,在前人工作的基础上提出了两种改进算法;另一方面,针对多标签数据流分类算法,本文受以往研究成果的启发,提出了两种新颖的分类算法。具体工作如下:(1)为解决单标签数据流分类算法大多无法解决特征演化且分类效果欠佳的问题,本文改进静态数据环境下的无监督特征选择算法,降低其时间复杂度来适应数据流环境,并以DXMinei.算法为原型,应用改进后的无监督特征选择算法优化其特征选择部分,提出了一种基于集成学习与无监督特征选择思想的数据流分类算法。(2)由于工作(1)中所提算法的时间复杂度仍有优化空间,本文采用一种在高维度数据环境下表现优异的数据结构进一步改进算法的特征选择部分,提出了一种改进的基于集成学习与快速无监督特征选择的数据流分类算法。(3)为解决多标签数据流分类综合了多标签数据分类与数据流分类两方面的难点,本文受多标签静态数据分类算法的启发,提出了一种动态加权集成的多标签数据流分类算法。该算法使用ML-KNN模型与KNN思想训练基分类器,并设计一种新颖的动态变化的权重调节机制,动态集成各个子分类器来最终给出分类结果,分类后数据被用来训练新的子分类器并替换原模型中表现不好的分类器。(4)工作(3)中所提算法中集成模型的大小对分类效果影响极大,而该参数需要人工确定,另外该算法在更新过程中舍弃了部分有用的信息。为解决模型大小确定困难与丢失信息不利于分类的问题,本文提出了一种集成大小不固定的多标签数据流分类模型。新模型维护一个分类器池,每次分类时从池中动态的选取若干子分类器加权集成,处理过的数据又被训练成新的模型并加入分类器池中。本文的主要贡献在于:第一,工作(1)、(2)均解决了单标签数据流分类算法大多未考虑的特征演化问题并且时间复杂度足够低来适用于数据流环境;第二,在目前多标签数据流分类研究工作还较少的情况下,工作(3)、(4)为其他研究人员提出了两种可用的解决思路,丰富了这方面的研究;第三,在真实数据集上,分别对上述四种算法进行了实验,结果表明各算法在分类效果与时间消耗上均有良好表现。
其他文献
数据库技术中,存储过程以其程序执行效率高、安全性好、可维护性高、代码精简,而被大量用于软件项目的逻辑封装中。为此,在数据库的教学中存储过程的学习占有极其重要的地位
计算机网络协议的研究热点之一是如何更有效地传输数据,包括数据传输的高效性、可靠性、公平性等等,实际应用中最为广泛的协议是TCP/IP协议。其中,UDP协议是它的一个重要研究
随着经济快速增长以及社会不断变化,现实世界中的优化问题也变得越来越复杂多变,影响因素和目标都渐渐趋向于多样化,多目标进化算法应运而生。要达到多个目标的同时优化,并不
在21世纪的今天,跟着全球化日益加强的脚步,国家与国家之间的交流也越来越频繁,自然语言之间互译的需要也越来越迫切,在人力资源有限的情况下,机器翻译的出现使人们看到了曙
随着Internet的普及和发展,软件的运行环境从静态、封闭、可控转向动态、开放、难控。在网络环境下实现资源集成和共享成为计算机软件技术面临的重要挑战之一。网构软件的提出
随着计算机和信息技术的发展,人们可以无节制地从互联网上获取资源并存放到个人电脑硬盘上。这些日益积累而成的大量资源文件,具有格式多样和存放位置不一等特点,从而导致我
近年来,关键行业的关键任务对工业自动化日益强烈和多样化的需求促进了工业控制计算机(简称工控机)的快速发展。作为微处理器主要供应商的ARM公司为了适应这一发展需求,针对工控
推荐系统是应用在电子商务系统中的一门非常成功的技术,它能有效缓解由于互联网飞速发展所带来的信息超载问题,并根据人们的行为、偏好等特点从海量数据中挖掘用户的潜在需求
现如今,网络通信的快速发展和电子商务活动的蓬勃兴起,各种网络设施也与之进步。数据库,作为信息的存储系统,是IT设施的基石之一,为用户提供了数据存储和共享服务。为了获得
安全多方计算(Secure Multi-party Computation, SMC)是研究多方协作计算问题的,即互不信任的两个或多个用户能够进行协作计算某项计算任务,并且保证自己的私有输入是安全的