数据密集型计算环境下离群点挖掘算法的研究

来源 :山东理工大学 | 被引量 : 0次 | 上传用户:king20051400
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,数据在医疗、商业、民生、科研与军事等领域都呈现出爆炸式增长,数据密集型计算环境下数据挖掘算法的研究已被越来越多的人所关注。数据密集型计算环境下数据挖掘主要分为聚类数据挖掘、分类、频繁项集挖掘、离群点挖掘四个方面,而离群点挖掘是目前研究的热点之一。文中首先阐述了数据密集型计算环境下数据的特点及表现形式,数据密集型计算环境下离群点挖掘的研究现状及进一步深入研究数据密集型计算环境下离群点挖掘的必要性,然后对传统数据中离群点挖掘的经典算法进行了介绍。经研究与分析,目前离群点挖掘算法的研究大都集中在基于统计分布、深度、距离、聚类或网格等的离群点挖掘方法,而对于数据密集型计算环境中离群点挖掘算法的研究并不多见。本文提出了数据密集型计算环境中离群点挖掘算法MR_LOF和MR_DBScan算法,并详细介绍了算法的工作原理。MR_LOF和MR_DBScan算法分别是在LOF和DBScan算法的基础上基于MapReduce模型提出来的。两种算法是网格技术与基于密度的方法相结合的离群点挖掘算法。Map阶段采用网格进行数据约简,将代表点信息发送给主节点;Reduce阶段使用基于密度的离群点挖掘算法,借助网格期望值E筛选出稠密区域。算法只需判断稀疏区域对象的离群度,降低了算法的时间复杂度。实验结果表明,在数据密集型计算环境中,算法能有效的对离群点进行挖掘。
其他文献
门限秘密分享方案是保护秘密的重要手段,在密钥管理、多方安全计算等领域有着重要的应用,而最初的Shamir门限方案并未关注秘密分片的可验证性,这削弱了方案本身的健壮性。近些年
近年来由于计算机技术和电子商务的高速发展,企业可获取的信息数量和类型有了极大的增长。在企业应用和Web数据集成的需要下,Web环境下的数据集成系统的研究己成蓬勃发展的趋
运动模糊图像的复原问题是图像恢复技术当中最重要的课题之一。运动模糊在日常生活当中极其常见,比如日常生活当中拍摄移动状态的物体、交通摄像头拍摄运动状态中的目标车辆以
乳腺癌是严重危害女性身心健康的常见恶性肿瘤,是世界各国女性死亡的主要原因之一。由于乳腺癌的病发机理还未完全弄清楚,因此早发现、早诊断及早治疗对防治乳腺癌十分重要。目
证据理论是处理由认识的局限性所带来的不确定性问题的有力工具,它处理的证据来源于专家,但专家的知识经验往往是有限的,获取也较困难,且可能存在一定的主观性。粗糙集理论反映了
随着网络技术的发展,网络上电子可读文本的日益增加,呈指数膨胀的文本信息资源,使得如何准确有效地获取用户所需要的信息成为人们关注的热点,促进了文本处理领域的形成和发展。自
构件检索就是从构件库中检索出满足用户要求或接近用户要求的构件。随着构件库的不断增加,多构件库联合检索技术日益得到重视,成为构件检索新的发展方向。由于各个构件库分布
移动Ad Hoc网络中各节点可以自由移动、快速建网,形成与传统网络并行的独立网络,该网络具有了一些不同于传统网络的新特点,而这些特点使整个网络的管理面临了新的问题。本文来源
这是一个科学飞速发展的时代,借助计算机等工具以及人类历史上长期的知识积累,各个学科的信息越来越深入和系统,人们迫切需要将这些特定领域的知识进行系统化的分析和归类从而为
VoIP又称为IP电话,它突破了传统电话的范畴,是一种技术创新的通信服务业务。它通过语音编码和包交换的方式实现在IP互联网的上语音通信。它促进了网络资源利用,降低语音业务成本