论文部分内容阅读
离群数据可能隐藏着一些真实的、而又出乎人们意料的知识,需要研究人员认真地对待。数据流由一系列有序到达的、趋于无限的、动态的数据组成。在数据流上进行离群数据挖掘则是数据挖掘的一个新兴课题,在日常工作中有广泛的应用。目前由于众多应用领域的需求,数据流挖掘正逐渐成为数据库、机器学习、统计学等领域的研究热点,并已成为许多研究领域的有用工具。当数据流这一数据模型在商业和个人信息中被广泛使用时,一些现有的应用软件需要对快速变化的数据流进行在线分析和处理。而现有数据流系统的局限性以及数据流的单遍特性,导致很难有效地在海量的流数据中提取有用数据,并对其进行进一步操作。传统数据挖掘算法在支持数据流挖掘时所表现出来的局限性已被广泛认识,这也促进了对改进现有数据挖掘算法和构建新的数据流挖掘算法的研究。本文共分为六章。第一章“前言”简单介绍了数据流的基本概念、原理和处理技术特点等,以及数据挖掘的基本概念、方法和分类等。第二章“离群数据挖掘概述”是关于离群数据挖掘以及常用离群数据挖掘方法的介绍。在第三章“数据流聚类分析”中,介绍了主要的数据流聚类方法及其与数据流离群数据挖掘的紧密联系。第四章“基于分布式反向k近邻算法的数据流离群数据挖掘研究”是运用CluStream算法的结构提出一种适用于数据流离群数据挖掘的算法,并将算法扩展到了分布式环境中进行数据流数据离群数据的挖掘,最后描述了实验过程和实验结果。第五章“基于数据流离群数据挖掘技术的农业气象灾害实时预警系统”将前几章的研究内容应用到了农业气象领域,并设计了一个农业气象灾害实时预警系统,详细分析了系统的体系结构和系统运行流程。最后一章是对全文工作的总结以及对今后研究工作的展望。