论文部分内容阅读
与传统的静态数据相比,现代数据多以数据流的形式产生和积累,数据类型方面也越来越常见到多标签类型。数据形式与类型的变化无论对单标签数据流分类还是多标签数据流分类都提出了巨大的挑战。本文针对单标签数据流分类算法,在前人工作的基础上提出了两种改进算法;另一方面,针对多标签数据流分类算法,本文受以往研究成果的启发,提出了两种新颖的分类算法。具体工作如下:(1)为解决单标签数据流分类算法大多无法解决特征演化且分类效果欠佳的问题,本文改进静态数据环境下的无监督特征选择算法,降低其时间复杂度来适应数据流环境,并以DXMinei.算法为原型,应用改进后的无监督特征选择算法优化其特征选择部分,提出了一种基于集成学习与无监督特征选择思想的数据流分类算法。(2)由于工作(1)中所提算法的时间复杂度仍有优化空间,本文采用一种在高维度数据环境下表现优异的数据结构进一步改进算法的特征选择部分,提出了一种改进的基于集成学习与快速无监督特征选择的数据流分类算法。(3)为解决多标签数据流分类综合了多标签数据分类与数据流分类两方面的难点,本文受多标签静态数据分类算法的启发,提出了一种动态加权集成的多标签数据流分类算法。该算法使用ML-KNN模型与KNN思想训练基分类器,并设计一种新颖的动态变化的权重调节机制,动态集成各个子分类器来最终给出分类结果,分类后数据被用来训练新的子分类器并替换原模型中表现不好的分类器。(4)工作(3)中所提算法中集成模型的大小对分类效果影响极大,而该参数需要人工确定,另外该算法在更新过程中舍弃了部分有用的信息。为解决模型大小确定困难与丢失信息不利于分类的问题,本文提出了一种集成大小不固定的多标签数据流分类模型。新模型维护一个分类器池,每次分类时从池中动态的选取若干子分类器加权集成,处理过的数据又被训练成新的模型并加入分类器池中。本文的主要贡献在于:第一,工作(1)、(2)均解决了单标签数据流分类算法大多未考虑的特征演化问题并且时间复杂度足够低来适用于数据流环境;第二,在目前多标签数据流分类研究工作还较少的情况下,工作(3)、(4)为其他研究人员提出了两种可用的解决思路,丰富了这方面的研究;第三,在真实数据集上,分别对上述四种算法进行了实验,结果表明各算法在分类效果与时间消耗上均有良好表现。