【摘 要】
:
现实世界中众多应用如实时监控系统、社交媒体等在源源不断地产生大量实时、快速到达的数据流,基于这种动态的数据流增量构建分类器是目前数据挖掘中热点问题之一。然而,数据流通常具有不平稳性,即随着时间的推移,数据的分布会发生改变,这种现象称为概念漂移。概念漂移的存在常使得分类模型的预测性能下降,给数据流的增量学习过程带来了挑战。尽管已经有研究工作致力于概念漂移数据流的学习,但仍存在一些亟待解决的问题:第一
论文部分内容阅读
现实世界中众多应用如实时监控系统、社交媒体等在源源不断地产生大量实时、快速到达的数据流,基于这种动态的数据流增量构建分类器是目前数据挖掘中热点问题之一。然而,数据流通常具有不平稳性,即随着时间的推移,数据的分布会发生改变,这种现象称为概念漂移。概念漂移的存在常使得分类模型的预测性能下降,给数据流的增量学习过程带来了挑战。尽管已经有研究工作致力于概念漂移数据流的学习,但仍存在一些亟待解决的问题:第一,相关研究工作通常致力于特定演变类型的概念漂移,对于多种演变方式混合出现的概念漂移数据流适应不足;第二,数据流往往会存在特征空间变化型概念漂移,动态变化的特征空间导致决策边界形式不断变化,而现有方法在计算效率以及对动态决策边界形式的适应性上存在不足。为了解决以上问题,本文研究了这种复杂概念漂移环境下的增量学习策略,具体研究工作如下:(1)提出了一种融合准确性和多样性的增量式集成学习算法DAWE,用于处理混合演变类型的概念漂移。该算法融合了分类器的分类准确性和多样性来计算基分类器的价值,通过从多方面综合度量分类器的价值来帮助集成模型应对多种漂移形式。同时,为了感知概念漂移的演变形式,本文基于主成分分析对漂移幅度进行量化分析,以此来自适应地调整计算分类器价值时的融合权重。实验结果表明,DAWE在含有多种概念漂移的数据集上相比目前最好的相关算法分类准确度平均提升了1.14%。(2)提出了一种面向动态特征空间的增量学习算法OLLDF,用于处理特征空间变化型概念漂移。该算法由一个全局线性模型和多个局部线性模型构成,用于适应决策边界形式的变化。通过对实例的特征集划分,以及综合划分后的特征对每个模型在线更新,使OLLDF可以在动态特征空间下学习。为了提高计算效率,OLLDF基于在线更新的特征方差来计算模型优化时的特征集权重。实验结果表明,在含有特征空间变化型概念漂移的数据集上,OLLDF在分类准确度和运行效率上均显著优于目前最好相关方法,分类准确度平均提升了9.93%。(3)将以上算法应用于击键数据流场景中的异常用户鉴别任务,以验证本文算法的应用价值。文中设计了两种特征提取方式分别表示单次击键特征和击键序列特征,并在此基础上分别基于DAWE和OLLDF增量学习异常用户鉴别模型。实验结果表明,DAWE和OLLDF在准确度和F1值上均表现出了良好的性能。以上工作表明,本文提出的算法可以有效处理混合演变类型的概念漂移以及特征空间变化型概念漂移,并且具有一定的实际应用价值。
其他文献
医疗领域的蓬勃发展离不开信息化、智能化的电子产品和设备,集成电路技术在人类健康医疗中扮演着无可替代的角色。无线体域网(WBAN,Wireless Body Area Network)技术自2012年IEEE 802.15.6标准获批以来,在医疗领域内迅速发展,成为运用在人体体表佩戴和人体体内植入的短距离、高抗干扰性的无线通信网络,逐渐成为学者学习和研究的热点。在通信网络传感节点中,无线收发模块通常
本文首先采用分子动力学模拟、DSSP以及MM-PBSA方法,研究了FabF、FabF-PMN(FabF-Derivatives)体系的稳定性、蛋白质二级结构变化以及相对自由能变化规律。其次,采用Auto Dock
微型燃气轮机作为分布式能源设备,以体积小、质量轻、效率高、排放低等特点表现出巨大的优势,近年来得到了迅速发展。微型燃气轮机不仅能够使用多种燃料,也能与多种能源形式结合,如燃料电池、太阳能、风能等。为了进一步得到更好的微型燃气轮机动态性能,需要在微型燃气轮机建模和控制方面不断创新。本文首先提取回热型微型燃气轮机的主要工作特点,建立非线性动态数学模型。采用通用特性解析表达式描述压气机透平和回热器的特性
目的:通过病例对照研究,探索环境危险因素及维生素D受体基因(Vitamin D receptor,VDR)与X线交叉互补基因3(X-ray repair cross-complementing group3,XRCC3)单核苷酸多态性与
伴随着中国文化“走出去”战略的实施,中国的对外传播事业虽然得到迅速发展,但国际舆论格局仍然呈现“西强我弱”势态。西方公众所认识和了解的中国几乎完全来自西方媒体的描
2μm波段处的激光具有众多独特的应用。首先,大多数半导体在2μm波长处都是透明的,可将激光聚焦到特定的目标层上进行精密微加工。其次,2μm激光对塑料和薄膜等材质的处理更有效。最后,水分子的吸收峰值在2μm波长附近,2μm波段激光对生物组织的处理也会更有利。因此在2μm波段处产生激光及探究其相关特性具有重大意义。与此同时,自相似脉冲凭借其良好的传输特性吸引了越来越多的关注。这种具有抛物线型的自相似脉
番茄斑萎病毒(Tomato spotted wilt virus,TSWV)是布尼亚病毒科(Bunyaviridae)番茄斑萎病毒属(Tospovirus)的重要病毒。番茄斑萎病毒属于负义链RNA病毒,基因组为三条不同长度
本文研究具有圆形几何结构薄板弯曲问题的优化Schwarz算法.首先利用Fourier变换证明了具有圆形几何结构薄板弯曲问题的经典Schwarz算法在非重叠型区域分解情形不收敛,在重叠
目的(1)研究DBT和彩超对乳腺肿块诊断效能的不同以及联合应用的价值;(2)综合分析DBT图像上乳腺肿块各征象及临床特征,建立基于DBT征象及临床特征的Logistic回归预测模型,并对该模
在我国智能手机与互联网的普及率越来越高的背景下,第三方支付逐渐渗透到用户日常生活,其中代表便是支付宝和财付通。第三方支付无论从业务结构还是业务规模上,都掣肘了传统商业银行的业务开展。因此,本文研究第三方移动支付和第三方互联网支付分别对商业银行收入有怎样的影响,研究第三方支付对不同规模的商业银行收入的影响有何区别,研究第三方支付对商业银行的存贷款业务收入和中间业务收入的影响是否有差异,有利于商业银行