基于逆k近邻计数和权值剪枝的离群数据挖掘及其并行化

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:xy479977530
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速崛起,使得各行各业的技术呈现出飞速发展,产生了各种形式的海量高维数据集,“数据丰富,信息贫乏”的局面对数据分析方法提出了更高要求。数据挖掘是一种重要的数据分析方法,是指从海量数据中发现隐含的、先前未知但潜在有用的、有趣的模式或信息。传统的离群数据挖掘方法受到“维度灾难”的影响,数据对象之间的相似性或距离变得难以区分或识别,其挖掘效果和效率较差。本文利用逆k近邻计数和权值剪枝策略,对离群数据挖掘及其并行化进行了研究,主要研究成果如下:(1)给出一种基于逆k近邻计数和权值剪枝的离群数据挖掘算法RKNNCWP。该算法首先统计对象出现在数据集其它对象KNN集合中的次数,求得每个对象的antihub分数;其次,以对象距其KNN的距离均值与数据集的KNN距离均值之比值作为权值,筛选出权值大于等于1的对象,作为离群候选集List,并计算List集合中对象的加权antihub分数和WPAnn_i;然后,利用逆k近邻计数、近邻值k、对象的k近邻距离均值重新定义了离群分数计算公式,只计算List中对象的离群分数,从中选取值较大的Top-n个对象作为离群对象;最后,采用人工数据集和UCI数据集,实验验证了该算法的有效性和可行性。(2)采用Spark分布式计算平台,给出一种基于逆k近邻计数和权值剪枝的离群数据并行挖掘算法SRKNNCWP。该算法将k近邻信息转换为弹性分布式数据集,将对象的antihub分数、对象k近邻的antihub分数和及权值等信息保存在内存中,计算产生离群候选集,从而有效地提高了离群数据并行挖掘效率,降低I/O传输。最后,采用人工数据集,实验验证了该并行算法的可伸缩性和可扩展性。
其他文献
超表面作为亚波长结构的二维排布阵列,可应用于主动调谐、偏振控制、波前整形等多个领域,可有效地对光束进行调制从而实现特定的功能。其中基于光学超表面的全电介质超透镜作为新型的光学器件,相较于传统器件具有体积小、性能高、易加工等优点;通过纳米结构单元的周期型排布,在具备高光学效率的同时能有效地避免传统光学器件中出现的多阶衍射级次。同时,超透镜可与现有的CCD器件兼容,为器件的性能提升以及一体化、轻型化的
中小企业是社会主义市场经济发展的重要组成部分,在保障民生、促进就业方面发挥着重要作用。近年来,芜湖市不断加强对中小企业帮扶支持力度,通过出台政策法规、优化营商环境等多项举措支持本地中小企业发展。但由于近年来贸易摩擦不断升级,外部环境不断变化,中小企业自身在企业规模和市场竞争力方面也存在先天不足,导致中小企业生存发展面临着内外部的双重压力,给未来一段时间的经济转型升级蒙上了一层阴影。一个完善的服务体
在当前的作战平台上,雷达与通信设备是互相独立运行的。随着无线通信技术的发展与硬件平台升级进步,人们对于在当前作战平台上雷达与通信设备互相独立而占据大量空间问题开始重视。并且由于现阶段雷达与通信波段存在重叠现象,带来的电磁干扰问题严重影响各系统的整体性能。目前,通过比较分析雷达与通信系统硬件系统的相似性与可行性,在信号处理层面以信号共享的方式实现软件层面的互通,成为雷达通信一体化设计的关键,既减少了
随着计算机技术的发展以及人们不断增加的医疗需求,传统人体健康监测技术的局限性日益显现,探索新的智能化医疗健康监护技术迫在眉睫。基于这个背景,本文研究了一种基于六轴传感器的人体健康检测技术和医院智能推荐方法,采用MPU6050六轴传感器采集到的数据来判断人体健康状态并结合医院评分实现智能问诊推荐。论文重点研究了应用六轴传感器检测人体健康的方法,通过对比使用加速度和角速度计算腿部迈步倾角方法的优缺点,
中国经济的快速发展,很大一部分得益于生产制造行业的贡献。我国制造业为了不断提升自身实力,在激烈的市场竞争中占据优势地位,热衷于购买高端制造设备,以加强综合实力,满足
汽车作为经济与科技发展的产物,已经成为了人们经常使用的交通工具。与此同时,驾驶者对汽车的要求也越来越高。NVH性能作为表征汽车品质的重要指标,更是汽车舒适性的重要评价
干旱胁迫是威胁植物生长和生存的主要危害之一,锌(Zn)和钼(Mo)作为植物生长必需的微量元素,参与植物体内多种代谢活动。但是目前Zn和Mo对桑树抵御土壤干旱胁迫的影响及其生理机制尚不清楚。本研究以中桑5801一年生扦插苗为试验材料,叶面分别喷施蒸馏水(H_2O)、0.02%Zn SO_4(Zn)、0.01%Na_2Mo O_4(低浓度Mo)、0.1%Na_2Mo O_4(高浓度Mo)和0.02%Z
学位
学位
目标激光散射特性由于涉及目标几何形态、粗糙面散射及材料复杂的介电特性,使其成为激光雷达应用技术中的难点问题之一。早期激光相干探测中由于考虑相干光在经过大气湍流后会退化为部分相干光。相对于相干光,部分相干光在抑制湍流带来的光强闪烁、相位起伏的影响方面具有一定优势,特别是近十年来,基于赝热光的符合成像技术,由于其独特性能受到重视。上述因素使得部分相干光下目标散射特性研究受到重视,对激光目标探测及新体制