论文部分内容阅读
随着信息技术的快速发展,数据在医疗、商业、民生、科研与军事等领域都呈现出爆炸式增长,数据密集型计算环境下数据挖掘算法的研究已被越来越多的人所关注。数据密集型计算环境下数据挖掘主要分为聚类数据挖掘、分类、频繁项集挖掘、离群点挖掘四个方面,而离群点挖掘是目前研究的热点之一。文中首先阐述了数据密集型计算环境下数据的特点及表现形式,数据密集型计算环境下离群点挖掘的研究现状及进一步深入研究数据密集型计算环境下离群点挖掘的必要性,然后对传统数据中离群点挖掘的经典算法进行了介绍。经研究与分析,目前离群点挖掘算法的研究大都集中在基于统计分布、深度、距离、聚类或网格等的离群点挖掘方法,而对于数据密集型计算环境中离群点挖掘算法的研究并不多见。本文提出了数据密集型计算环境中离群点挖掘算法MR_LOF和MR_DBScan算法,并详细介绍了算法的工作原理。MR_LOF和MR_DBScan算法分别是在LOF和DBScan算法的基础上基于MapReduce模型提出来的。两种算法是网格技术与基于密度的方法相结合的离群点挖掘算法。Map阶段采用网格进行数据约简,将代表点信息发送给主节点;Reduce阶段使用基于密度的离群点挖掘算法,借助网格期望值E筛选出稠密区域。算法只需判断稀疏区域对象的离群度,降低了算法的时间复杂度。实验结果表明,在数据密集型计算环境中,算法能有效的对离群点进行挖掘。