基于自适应聚类和高斯核密度的离群点挖掘算法

来源 :燕山大学 | 被引量 : 0次 | 上传用户:mengfengye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点检测及数据聚类分析是数据挖掘的研究热点,通过检测离群点,可以从数据中获得重要的知识,有助于做出更好的决策支持。目前,离群点检测已经成功应用于入侵检测、欺诈检测、医疗健康、生态领域等,但离群点检测的精度和效率仍然面临着挑战。本文针对基于聚类的离群点检测算法存在的参数设置、基于聚类和基于密度的离群点检测算法的召回率和准确度的提高问题进行研究,本文的主要研究内容如下。
  首先,分析了基于密度和聚类的离群点检测算法的研究现状,对算法中密度刻画不当和参数难确定问题,本文在无参数聚类搜索方法的基础上,提出一种利用无参数和聚类边界的离群点检测算法,该算法利用相互邻居和无参数聚类搜索方法来自适应获取参数;提出离群聚类边界区域的概念用以刻画聚类之间数据点的离群性以抑制边界区域的“错聚”现象;提出局部偏离因子用以度量局部离群点的离群程度。该算法在整个过程不需要人为设置参数,并且能在不同分布特征的数据中准确找到数据集中的全局离群点和局部离群点。
  其次,对基于密度空间聚类的离群点检测算法进行了研究,为解决该算法存在的参数需要人为确定而导致聚类质量差、离群点检测效率低的问题,提出了一种基于高斯核密度和候选集的离群点检测算法。该算法在使用k距离矩阵和数学期望的方法基础上,来完成参数的获取,得到候选集,利用高斯核密度函数和距离域来刻画候选集中数据对象的紧密程度,提出新的离群因子来刻画候选集中数据对象的离群程度,减少边界点的影响,检测出真的离群点。
  最后,在相关数据集下,分别对本文提出的基于无参数和聚类边界的离群点检测算法、基于高斯核密度和候选集的离群点检测算法进行了实验验证,并且和相关的算法进行了性能对比,验证了本文算法的有效性和广泛性。
其他文献
【中图分类号】G4 【文献标识码】A 【文章編号】2095-3089(2016)34-0222-02  生命就是一次旅程。当我们踏上时间这段列车的时候就注定穿梭在时间和空间中,永不回头,路上再美的风景也只是擦肩而过的过眼云烟,再动听的故事也只是脑海中的一束烟花,一瞬即逝,它们从未属于你,匆匆来去,我们只是个过客。  事事变幻无常,然而古往今来的感情大致相同,所以我们才能穿越时空领略圣贤者的哲理智慧
期刊
软件缺陷预测技术能够在软件开发初期尽早的发现软件缺陷,有助于合理地分配测试资源,降低软件开发和维护成本,是保证软件可靠性的重要方法之一。机器学习的发展为软件缺陷预测提供了新的思路,本文进行了基于机器学习的软件缺陷预测方法的研究,主要内容如下。
  首先,研究了不同种类的软件缺陷及软件缺陷特征提取方法,结合特征选择、类不平衡学习和词向量技术等机器学习方法提高软件缺陷数据集的质量,提升软件缺陷预测模型的性能。
  其次,针对软件缺陷预测中的类不平衡和维度爆炸问题,提出了基于代价敏感的特征选择算法。
随着物联网、移动设备的普及,越来越多的信息需要通过无线通信的方式共享,大量的隐私信息将通过无线信道进行传播。然而,由于物联网设备、移动设备的低性能低功耗特性、无线信号的暴露性和传统加密方式自身的缺陷,使得传统加密方式不便捷、不安全,容易造成隐私的泄露。因此需要一种能够令通信双方动态生成密码的方案。物联网中广泛部署的无线设备也需要方便地进行相互的认证。
  针对这些不足和需求,论文聚焦于面向智能无线设备的动态密钥生成和匿名认证方法,主要工作可概括为:
  首先,设计一种基于无线信道状态信息的动态
阴影检测一直是计算机视觉领域的一个重要的分支,其在计算机视觉领域中起着举足轻重的作用。阴影在自然场景中无处不在,阴影的存在会影响诸多计算机视觉任务,如目标识别、图像分割以及光学测量等。因此如何更好地检测阴影成为计算机视觉领域乃至整个人工智能领域亟待解决的难题。基于国内外研究现状以及深度学习和计算机视觉等相关知识,对如何获取更好的阴影检测结果进行了深入研究。具体研究内容如下:
  首先,提出了将有效的多任务学习引入到阴影检测任务中,通过阴影尺度分类子网络在阴影检测过程中为主网络添加高级先验;然后,将提
随着数字化办公的普及,电子文件逐步代替纸质文档成为企业信息存储、共享和使用的办公工具,其中保存着大量的商业机密,如果发生泄露会造成巨大的财产损失。部分企业采用防火墙或者入侵检测技术防止外部攻击人员窃取机密文件,但是不能杜绝内部员工主动泄密的行为。在文件被泄露的情况下,如何保证文件数据的安全成为现代信息安全技术的关注热点之一。
  首先,分析了国内外Windows平台主流的文件数据保护产品,发现了它们在安全性和实用性存在的问题。基于Windows文件系统操作内在机制,采用文件系统过滤驱动技术实现对文件
软件缺陷预测技术能有效辅助软件测试保证软件质量。然而,数据的不平衡性会使训练时过多关注多类无缺陷模块而对少类有缺陷模块训练不足,导致对缺陷模块分类性能大大降低;大量无关和冗余特征会降低预测精度;此外,单一分类器对分布多样的缺陷数据预测不够全面。本文就上述问题进行研究。
  首先,针对缺陷数据不平衡问题,提出一种ADASYNTomek组合采样算法。采用自适应方式将合成重点聚焦于难以学习的缺陷样本上并通过TomeLink方法来确保数据集达到平衡的同时去除噪声样本,提高了数据质量。
  其次,针对缺
近年来,随着计算机图形学的发展,交互场景已经越来越多地出现在多种虚拟环境中。其中,流体与固体的交互引起研究者的广泛关注。由于流体与固体之间的交互能够使生成的流体动画更加生动和逼真,因此常常被应用于游戏特效、动漫制作及虚拟现实环境等众多领域。本文针对大规模水面与物体的交互、水滴与玻璃窗的交互这两种不同的流固交互场景,分别进行模拟和改进,以获得更快、更逼真的交互效果。
  首先,为了实现水面上物体的真实运动模拟,组合不同的方法对水面波浪进行分区建模,结合投影网格绘制出大规模真实的水面场景。对于玻璃窗上水
在计算机视觉中,行人目标跟踪是讨论的经典问题,它可以应用到很多领域,比如智慧交通、智能安防等等。这几年,单摄像头下的单目标跟踪取得了一定进展。但跨摄像头下的行人跟踪还是现阶段的难点和亟待解决的科研课题。因此,本论文主要是在深度学习框架下,针对跨摄像头行人重识别和单摄像头行人跟踪问题进行了研究:
  首先,本论文对现有的目标跟踪算法和行人重识别算法的研究现状和基本概念进行了深入的探讨。并对一些神经网络的基础算法进行了研究和分析。
  之后,本论文对基于多级特征并行互卷积的行人跟踪算法进行了研究。
随着机器学习和数据挖掘的发展,如何分析材料数据并给出用于实际生产中的决策,日趋成为材料信息学领域重点研究的内容。通过机器学习和数据挖掘构建预测模型,精简本构方程的复杂步骤,缩短材料的生产工期,节约锻造过程的资源和成本,从而提高产业工作效率。本文改进特征选择和参数优化的方法,提出基于特征选择的极端梯度提升模型,并用组合种群训练优化参数,用于钢材料性能预测。
  首先,针对钢材料数据特征稠密不独立等问题,提出一种基于互信息特征组合的支持向量机递归特征消除算法,对材料的原始特征计算其互信息度,以互信息度作
软件缺陷与漏洞是造成软件安全问题的根源,对缺陷和漏洞进行预测是软件测试领域的重要组成部分,有助于合理分配测试资源,是提高软件质量与安全性的重要保证。针对此研究,本文提出了基于组合采样与XGBoost的缺陷预测方法及基于组合N-gram特征提取与异质集成的漏洞预测方法,本文的主要内容如下。
  首先,分析了软件缺陷与漏洞预测的研究现状,对基于机器学习的静态预测方法进行了深入分析,然后从源码特征的量化表征及数据集中存在的特征维度高、类不平衡等问题及方法进行了研究。
  其次,针对基于结构化度量的缺