处理静态数据和流数据中离群点检测问题的有效方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xiaofagn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据的可访问性、便捷性和可靠性是十分关键的,任何形式的干净数据都已成为当今社会中人类的新财富。在许多领域里,由于数据本身大容量和高速传输的特点所带来的巨大挑战,维护高质量数据的能力已经变得十分重要。数据可以给各个行业的企业提供对其企业活动的价值分析进而帮助企业激发其最佳潜力,并在与对手竞争中获得更大的优势。因此企业现在大力投资研发数据挖掘技能,期待从不同类型数据中发现隐性的数据价值。
  离群点检测是一项非常重要的数据挖掘任务,其目的是检测偏离正常数据预期模式的对象,因为离群点有极大可能影响数据分析结果。离群点检测是一个在不同领域、不同数据类型中有着广泛应用的重要问题。离群点有许多潜在的来源,在大数据集中识别它们需要有效的方法。随着数字时代的发展,离群点的检测变得越来越具有挑战性。例如,随着传统批处理数据的革命,我们现在看到大量的数据以高速、动态的方式连续生成。这些类型的数据可能包含冗余信息,并且通常会影响离群点检测方法的效率和总体性能。
  多年来,为解决离群点检测带来的挑战,使用不同算法的方法和技术被提出。一些常见的困难与输入数据的性质、离群值类型、数据标签、准确性以及CPU时间和内存消耗方面的计算复杂性有关。研究人员继续寻找更好的解决方案来解决这些挑战,并且考虑检测离群点的有效性。
  为了实现这一目标,本文针对传统方法存在的缺陷和局限性,提出了在不同数据集中检测离群点的方法,并提出了在批处理和数据流中处理离群点的有效方法。本文进行了广泛的实验,以评估所提出的技术相对于其他先前方法的性能,并讨论了相应实验结果。
  本文共分五章,前两章为研究的基础。第一章介绍了本研究的目的,及离群点检测的一些基本概念包括定义、成因和应用领域。第二章对近二十年来离群点检测方法的研究进展进行了全面而有组织的回顾。我们将这些方法从不同的离群点检测技术(如距离、聚类、密度、集成和基于学习的方法)中分为不同的技术。在每一类中,我们都介绍了一些最新的离群点检测方法,并对它们的性能进行了详细的讨论。此外,我们描述了它们的优缺点和挑战,为研究人员提供每种技术的简明概述,推荐方案和可能的研究方向。
  在本文的第三部分中,针对不同类型的离群点检测方法,我们提出了一种基于统计的方法来解决离群点的检测问题,并给出了最优的解决方案,使离群点检测的思想能够更有效地提高检测率,同时使计算代价最小化。为了实现这一目标,我们提出了用于参数化方法的高斯混合模型(GMMOD)和用于非参数方法的核密度估计(KDEOD)算法
  第四和第五部分扩展了在不同数据类型的数据流中检测离群点的目标。第四部分提出了一种基于距离的方法。提出了一种基于最小探测的微簇(MCMP)混合方法。为有效降低距离异常检测的计算代价,提出了一种新的基于距离的异常检测技术。提出的MCMP技术包括两种方法。首先,采用微聚类的方法来减少范围查询搜索。然后,为了处理微簇外的对象,我们提出了区分强内联和平凡内联的概念。第五部分提出了一种基于聚类的方法。提出了一种基于聚类的数据流离群点检测方法(CLODS),该方法首先应用微聚类技术对密集数据点进行聚类,然后根据数据流的相关性对窗口内的数据点进行有效的处理,从而检测出进化数据流中的离群点他们各自的地位或地位。这两种方法都提高了计算速度和内存消耗,同时保持了异常检测的准确性。在大多数数据集中,它们在CPU时间和内存消耗方面都优于最新的方法。
  最后一部分中,本文针对离群点检测方法的未来发展,为研究者提供了一条清晰的思路去面对一些开放性的研究问题和挑战。
其他文献
随着互联网的不断发展,在人们的生活与工作中,信息过载问题越来越严重,为了让人们在对自己的需求也不太明确的情况下,从海量的数据中找到自己需要的信息,推荐系统应运而生。推荐系统经过二十年的迅猛发展,协同过滤推荐模型已成为目前应用最为广泛的推荐模型。随着社交网络的发展,大量的社交信息也随之产生,越来越多的学者开始研究如何将社交信息融入到推荐系统中,以此提高推荐系统的推荐效果。信任信息是社交信息中的一种代表性信息,众多学者依据信任信息提出了许多基于信任关系的推荐模型,这些模型用不同的方式来解决推荐系统存在的数据稀
【中图分类号】G612 【文献标识码】A 【文章编号】2095-3089(2016)34-0287-01  俗话说:三岁看到老,没有规矩不成方圆。发展心理学认为,心态决定命运,细节决定成败,习惯成就未来。幼儿教育家陈鹤琴先生说:“人类的动作十分之八九是习惯,而这种习惯大部分是在幼年养成的。从幼儿教育规律来说,小班是幼儿跨入集体生活的一个转折点,也是进行常规教育的关键期。如果在这最佳期里,我们有目的
期刊
【摘 要】教师在课堂教学中有意识地设置一个个的问题,可以不断引起学生认识上的矛盾,促进学生思维的发展,有利于培养学生独立思考、认真探究、善于发现的好习惯。在语文教学中,我们要针对小学生的认知特点,充分利用教材,精心设置问题,简化教学头绪,成就语文课堂的简约和精彩!  【关键词】题眼 关键 重点段 重复 矛盾 结尾 想象 引申  【中图分类号】G623.2 【文献标识码】A 【文章编号】2095-3
期刊
【摘 要】农村初中学生视野狭窄,知识面狭窄,阅读量少。一部分农村初中学生,一上作文课就愁眉苦脸,抓耳挠腮。如何有效地提高农村初中生的写作水平,本文从两方面进行探讨:一、重視“作后评讲”和“作后指导”,实行“先写再评,后指导,多修改,二次作文”的作文教学模式。二、引导学生从生活和阅读中积累素材。  【关键词】作后评讲 作后指导 先写再评 修改作文 二次作文 积累素材  【中图分类号】G633.3 【
期刊
【摘要】《甜蜜蜜》内容为小说,以人物对话为主。这部作品对我来说有一定难度。特别是对于符合场景要求的口语翻译。希望通过这篇文章的翻译能够提高自己对情景口语翻译的把握,准确表达文章的内容。  本报告首先介绍了文章的体裁,作者风格。接着介绍了规划和异化理论及归化和异化理论在本文翻译过程中的应用情况。后面整理阐述了翻译过程中用到异化和归化理论翻译的典型句子,分析了采取归化或异化方式翻译的原因和翻译后的效果
期刊
在雷达、扩频通讯、信号检测等很多的研究方向中,不同种类的序列都会被需要。尤其是随着通讯领域的不断发展,对于序列的需要也变大了。最佳信号的异向循环自相关函数值(旁瓣值)是0,但是并不容易得到,而且序列和序列偶的研究受到了限制。在这个基础上,几乎差集偶的概念被提出来了,方便了三值自相关二元序列偶的研究。本文主要是通过计算机搜索得到数据,来总结规律构造出平衡几乎差集偶和几乎最佳自相关二元序列偶,且几乎最佳自相关二元序列偶与几乎差集偶有着等价关系。
  首先,分析了二元序列、差集偶以及几乎差集偶和几乎最佳自
【中图分类号】G633.41 【文献标识码】A 【文章编号】2095-3089(2016)29-0009-01  轉眼间,自己作为英语教师已经六年多了。可能是由于在乡镇的关系,学生的基础较差。所以,刚入学时,我几乎都会发现学生们对英语的兴趣并不是很高,对待英语既有点好奇又有点害怕。在这种情况下给予怎样的引导,才能使他们更好、更快地走进英语的世界并且爱上学英语这件事呢?这成了我一直在思考并努力为之探
期刊
磁共振成像(MRI,Magnetic Resonance Imaging)是一种安全、无辐射的新型医学成像技术,它能够提供高对比度的人体组织影像,并且成像方式灵活,可以通过多参数成像突出不同组织的细节信息。然而,MRI扫描时间较长,但扫描对象无法长时间保持静止不动,因此MRI成像容易产生运动伪影。增加扫描层厚能够提高扫描速度,但层厚越大,MRI图像的空间分辨率越低,并且容易产生部分容积效应,不利于疾病的分析与诊断。因此,如何获取高分辨率的MRI图像是一个亟待解决的课题。近年来,基于深度卷积神经网络(DCN
【中图分类号】G4 【文献标识码】A 【文章编号】2095-3089(2016)34-0293-02  一、背景  某日,我班学生英语测验,迟放学十分钟。第二日到校,听同事说昨天放学后,相邻两班学生因口角发生矛盾并在校外摆开场子寻事,我班学生围观者较多。我先在本班学生中了解了一下情况,让围观者自己说明昨天究竟怎们回事,为何围观,有没有参与,学生第一反应都是推卸责任。第二节下课后,我们三位当事班的班
期刊
说话人识别技术作为身份识别应用中的重要技术之一,以其无需密码、无需个体接触、识别设备成本较低等优势,广泛应用于各种身份认证系统中,倍受企业与研究者们的关注。经过数十年的发展,说话人识别研究取得了巨大进展;其中,特征提取作为寻找说话人个性信息的重要手段一直是研究热点之一。在各类语音处理应用中,由于语音信号具有短时平稳的特性,一般采用短时的帧级声学特征来刻画语音。然而,说话人的个性信息往往蕴藏在较长语音段的统计特性中,因此如何从一段语音的帧级特征序列中提取出话语级说话人特征,就成为说话人识别研究的关注焦点之一