基于无监督学习的复杂数据异常检测算法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:hou189
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异常检测指的是对不匹配预期模式或偏离正常模式的数据的识别,在网络安全、金融、生物医疗等多个领域中都具有广泛的应用,并且发挥出了重要的作用。由于获取高质量带标签数据的代价越来越高,而且在不使用标签等有效信息的情况下,对异常的识别更加困难,因此,基于无监督学习的异常检测算法更符合实际需求而且更具有挑战性。随着信息获取手段的升级,获取的数据也在多个层面呈现出复杂性:(1)维数越来越高,而且数据中包含了大量无用信息以及冗余信息;(2)包含时序信息,数据中的每个样本与其前后近邻之间都有着很强的时间关联性;(3)数据类型多样化,除了数值型数据还包括非结构化数据,比如文本以及音视频数据;(4)数据来自多个源形成多视图数据,需要联合考虑多个视图之间的关联与差异等。数据的这种复杂性为无监督异常检测算法提出了严峻的挑战,以高维数据和多维时序数据为例,高维数据中的冗余信息等内容对异常检测过程造成的干扰,极大地影响了算法的检测性能;多维时序数据除了时序性之外,各个维度之间也具有较强的相关性,如何同时考虑这两个特性成为面向多维时序数据的子序列异常检测算法与点异常检测算法的一个难点。因此,本文将围绕实现复杂数据的无监督异常检测这一目标,分别对面向高维数据的异常检测算法、面向多维时序数据的子序列常检测算法以及面向多维时序数据的点异常检测算法展开研究。深度学习具有良好的特征提取能力,在面向高维数据的异常检测工作中有着重要的应用。现有的深度异常检测算法使用先降维再检测的算法或者是直接面向高维数据的数据拟合算法进行异常检测,前者使用通用的重构误差作为降维过程的损失函数,忽略了降维与后续的异常检测目标之间的关联;后者基于“数据能够拟合某个分布或模型”的假设检测异常,但是随着高维数据复杂性的增加,使得该基本假设难以被满足,导致检测效果不理想。为此,我们提出一种基于近邻区分网络的深度异常检测算法NND-AD。NND-AD将降维与检测结合起来,在降维过程中最大化数据与其近邻之间的距离,使得异常尽可能与其他数据分离;以数据之间的结构相似性为权重调整数据在空间中的分布,使得数据与其近邻之间的距离在“拉大”的过程中能够按照结构的相似性在空间中分布。同时,NND-AD从近邻关系的角度出发,使用数据在低维空间中的近邻距离作为其异常得分,保证了特征提取与异常检测目标的有效关联。实验结果表明,与现有的深度异常检测算法相比,NND-AD平均有13.94%的AUC分数提升以及63.86%的F1-Score提升。面向多维时序数据,现有的在线多维子序列异常检测算法在使用相似性度量时因没有同时考虑时序性以及维度之间的相关性,使得检测准确性不高。为此,我们提出了一种基于耦合相似性的子序列异常检测算法CSS-AD。CSS-AD通过高斯核函数分别计算数据在时间和维度上的相似性,考虑到了多维时序数据的时序性与维度之间的相关性,然后加权处理得到局部相似性;CSS-AD还使用基于整体数值残差的全局相似性与局部相似性进行加权求和,得到耦合相似性。然后CSS-AD使用待检测的子序列与其临近的若干历史子序列的平均耦合相似性作为其异常得分。实验结果表明,与现有的面向多维时序数据的在线子序列异常检测算法相比,CSS-AD平均有28.89%的AUC分数提升以及94.58%的F1-Score提升。面向多维时序数据的基于预测的点异常检测算法要求在线环境下的数据预测过程中能够同时考虑时序性以及维度之间的相关性,然而现有的在线环境下的工作没有同时考虑时序性与维度之间的相关性,使得检测准确性不高。为此,我们提出一种基于分组预测的点异常检测算法GPP-AD。首先,GPP-AD通过利用维度之间的相关性对维度进行分组,将相关性强的维度和独立性强的维度区分开来,避免不相关特征对后续预测过程的影响。然后,在每个具有强相关性的维度分组上,GPP-AD通过滑动窗口来保留数据的时序性,通过线性回归在每一个维度上学习一个从历史数据的多时间点多维度到当前时间点的预测模型,充分利用了历史数据对当前时刻每一个维度在时序和维度上的影响来预测新数据,同时考虑了时序性与相关性;在独立性强的维度分组上,GPP-AD使用基于滑动平均的算法对当前时刻进行预测。最后,GPP-AD通过对各个维度分组预测值的集成,不仅可以使用预测误差检测异常,还可以确定异常所在的维度。实验结果表明,与现有的面向多维时序数据的在线点异常检测算法相比,GPP-AD平均有47.29%的AUC分数提升以及33.02%的F1-Score提升。
其他文献
债务违约风险是企业风险管理的重点,企业通过健全内部控制体系能够有效降低债务违约风险,确保企业顺利偿还债务,促进企业可持续发展。论文阐述内部控制质量与企业债务违约风险的研究现状,基于内部控制质量视角分析企业债务违约风险成因,并提出提高内部控制质量防范债务违约风险的措施建议,期望对完善企业内部控制体系建设、加强企业风险防控有所帮助。
<正>玩耍是幼儿的天性,游戏是幼儿园教学的重要内容。游戏精神的意义是通过游戏教学活动,实现幼儿的自我成长和发展。从幼儿教学游戏的特质来看,幼儿园游戏教学活动能够达到寓教于乐的目的,让幼儿在游戏中有所收获,培养幼儿的治理能力和开放思维。由此可见,探寻和重塑游戏精神对引导幼儿的成长具有重要的意义。
期刊
云南临翔大田河锗矿矿体呈层状、似层状、透镜状赋存于新近系中新统南林组第二段和第四段,锗矿与煤共生,其形态及产状受煤岩层控制。矿床成因类型为多渠道供源、多阶段成矿的热水沉积-改造矿床。
"两千年前孔仲尼,两千年后陶行知"。陶行知先生是我国著名的人民教育家,他倡导的生活教育理论对现代教育的影响较为深远,但是学术界对"生活力"的关注一直较少,然而生活力是生活教育理论的核心所在。当今生活教育理念备受推崇,其中生活力的内涵和精神也需要随着社会发展不断完善,而有效强化陶行知先生的生活教育理论,开展生活力研究需要从幼儿阶段做起,使幼儿园的活动进一步生活化,鲜活幼儿生活,让每一个幼儿未来的人生
为了提升小学生的英语口语交际能力,本文主要对小学英语教学中如何培养学生的口语交际能力进行研究,首先分析了口语教学中存在的问题,然后提出了有效的培养措施。措施主要包括:创设教学情境,引导学生进行对话练习;角色扮演,提升学生的学习兴趣;利用多媒体技术;改变口语评价标准及方式;建立家校互联的英语学习机制等。希望可以为教育同仁提供参考。
随着社会的快速发展,矿产资源的重要性越来越明显。矿产资源储量作为促进社会发展的重要物质基础,将直接反映一个国家的资源能力水平。因此,优化矿产资源配置,提高各国矿产资源广泛利用的效率,已成为缓解资源短缺和经济发展压力的有效途径。随着经济的发展和工业化进程的加快,对矿产资源的需求不断增加。由于矿产资源不可再生,经济的快速发展必然导致矿产资源短缺。因此,合理利用矿产资源,实现矿产资源效益最大化是十分必要
在喷射混凝土中掺入不同长度的玄武岩纤维,其抗冻性能会受到不同程度的影响,为对其进行研究,设立5组不同工况的室内试验:掺量一致(4 kg/m~3)长度不同(6 mm、16 mm、50 mm)的3组玄武岩纤维(BF)喷射混凝土,以及一组钢纤维喷射混凝土(SF)和一组普通喷射混凝土(PC)。从质量损失率和相对动弹性模量出发,分析掺入不同长度玄武岩纤维后,喷射混凝土抗冻性能的变化,并建立玄武岩喷射混凝土损
国际上的工程项目管理模式很多,国内常用的是设计-招标-建造模式(DBB模式)和代建模式(PMC模式)。BIM(建筑信息模型)是工程界研究和应用的热点,目前BIM在我国的应用主要集中在模型创建和建模标准上,其应用效益尚未真正体现,只有将BIM应用于工程的全过程管理才能发挥其最大效益。文章在分析各种工程项目管理模式特点的基础上,将BIM与我国最常用的项目管理模式相结合,提出在现阶段能顺利实现全过程应用
目的 分析婚孕前开展健康教育的作用。方法 选择在新蔡县妇幼保健院2019年1月至2021年12月接收的256对优生体检门诊进行生育体检的夫妻,全部夫妻均符合我国生育政策,存在妊娠意愿。分组方式选择随机摸红蓝球方式,其中常规组(128对)摸蓝球,试验组(128对)摸红球,将免费孕前优生健康体检应用于常规组夫妻中,将免费孕前优生健康体检及孕前健康教育应用于试验组夫妻中。针对每组受检者各时期汉密尔顿抑郁