基于类划分和近邻选取的k近邻算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:djseagle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,怎样从海量数据中挖掘出有用信息已经成为大众广泛关注的一个焦点问题,数据挖掘技术为解决该问题提供了一个有效途径。数据分类是数据挖掘中的一个重要方法,其中k近邻分类算法凭借其简单、易操作等优点被人们广泛应用。但与此同时,k近邻分类算法也存在着对k值选取敏感、易受不平衡数据影响和距离度量选取过于简单等问题。本文主要在k近邻分类算法和基于局部均值的k近邻分类算法的基础上,利用群智能优化和稀疏表示等技术对k近邻分类算法进行改进,来克服原始算法的一些缺陷,进而提升算法的分类性能。具体研究内容和研究结果如下:1.针对基本的蚱蜢优化算法易陷入局部最优和收敛精度不高等问题,提出了一种改进的蚱蜢优化算法。首先,利用混沌反向学习初始化策略,产生了一群较优的初始种群;利用自然指数递减策略,平衡了算法的勘测和开发能力;利用高斯变异策略,克服了算法的易陷入局部最优的问题。然后,利用10个基准测试函数进行实验,结果表明,改进的算法具有较高的收敛效率和求解精度。最后,针对距离加权k近邻算法对距离度量的依赖性过高,生成的权重具有一定的随机性等问题,提出了一种基于改进的蚱蜢优化算法的距离加权k近邻算法,利用优化算法和距离度量生成一组最优的近邻权重,对算法的投票过程进行加权。利用UCI数据库中的6个数据集进行实验,结果表明:该算法不易受k值变化的影响,且分类精度有所提高。2.在k近邻算法中每个属性对分类过程的影响是相同的,导致一些相关性较弱的特征会引起新数据的分类错误,另外,k近邻算法当面临不平衡数据集和异常值时,传统的多数投票原则会出现不同程度的错误划分。针对这些问题,提出了一种基于互信息和局部均值的k近邻改进算法。首先,利用互信息的相关度对属性进行加权,其次,基于局部均值和类贡献建立了综合类划分策略。最后,采用UCI数据库中的5个数据集,通过十倍交叉验证方法来验证改进算法的性能,结果表明:改进算法在不同类型数据集中均具有较高的准确性和较强的稳定性。3.基于多局部均值的k次调和近邻算法对所有属性赋予相同权重,忽略了不同属性贡献率的差异;仅根据距离排序选取近邻样本,未充分考虑样本的邻域分布。针对这些问题,提出了一种基于属性权重和稀疏系数的调和近邻算法。首先,利用互信息和增益率定义了一种综合属性权重对距离公式进行加权。其次,利用稀疏系数较强的模式识别能力,建立了两步近邻选取策略来挑选最优近邻样本。最后,通过UCI和KEEL数据库中的12个标准数据集和2个含噪数据集对该算法进行实验,并与6种经典算法进行比较。结果表明:改进算法在较好的鲁棒性的基础上取得较高的分类准确率。
其他文献
目的:探讨老年急性脑梗塞患者血液流变学改变与其临床相关性。方法:回顾性分析过去三年间于我院就诊的118例老年急性脑梗塞患者组与123例健康对照组血液流变学各项指标的比较
分析了真空条件下机械密封的特点、设计要点、辅助密封圈选材,并结合实例作了探讨。
食物权是《世界人权宣言》、《经济社会文化权利国际公约》以及其他一些国际人权法中规定的人权。有人认为食物权难以定义,并因而反对食物权。为了进一步明确食物权的内容,关
随着网络科技和信息技术的不断发展以及物联网系统的应用和推广,人们进入了大数据时代,云计算平台成为数据应用和分析的首要选择。大数据的兴起和云计算平台的使用给社会各界
科教兴国,教师是帆;传递文明,教师是桥。教师队伍的整体素质和专业化水平,是教育改革和发展的关键。在教师成长的过程中,既需要先进教育理念的引领,也需要吸收和借鉴他人成功
高热惊厥 (febrile convulsion,FC)是婴幼儿惊厥中最常见的一种 ,偶可呈癫持续状态。我国 FC患病率为 4 .4 %。长期以来 ,FC被认为是一个普通的症状 ,只相当于年长儿的寒战
首先介绍了我国工资薪金类个人所得税的征收情况,分析了个人所得税的主要功能,即增加国家财政收入和调节居民收入分配。然后介绍了基尼系数及其计算方法和实际意义。最后选取
目的了解生活事件与应对方式对留守中学生心理健康的影响。方法采用多阶段整群随机抽样抽取1405名留守中学生进行中学生心理健康评定量表(MSSMHS)、中学生生活事件多维评定问
风能作为可再生能源开发利用的一种形式,近年来得到了快速发展。随着风力发电所占供电比重不断提高,为了维持电力系统安全稳定运行,要求风电机组具有低电压穿越能力,即在电压跌落期间保证风电机组不脱网运行,并且可以提供一定的功率支撑,实现风电机组友好并网型接入。双馈风机作为风力发电的主流机型,采用定子侧直接与电网连接,转子侧经小容量换流器与电网连接的结构,其运行特性受电网扰动影响很大,故障发生后转子侧易出现
随着计算机技术地不断发展,CAD技术开始在铸造领域得到广泛地应用,并且逐渐从二维CAD技术向三维CAD技术转换。然而,二维铸造工艺图纸因其尺寸表达清晰,易于检查等优点,在企业进行尺寸校验以及上下游企业对接过程中,仍然具有不可或缺的地位。而当前国内主流的铸造工艺CAD系统往往只包含单一的三维工艺设计或者二维工艺设计功能,无法同时满足企业进行三维工艺设计以及获得二维铸造工艺图纸进行尺寸检查的全面需求。