面向非平衡混合型数据的分类算法及应用研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:lizhigang3637
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非平衡混合数据分类处理在现实应用中非常普遍,该数据具有分布不均匀,属性多样等特性。传统的分类学习方法在处理该类型数据时有效性不高,而且在少数类样本足够重要时,甚至会导致较大的损失,因此针对非平衡混合数据的处理方法成为当前国内外数据挖掘研究的重点之一。本文的研究工作以传统的分类方法为基础,通过对传统分类算法的改进,实现对非平衡混合数据的处理。通过分析发现计数最近邻分类算法(K—nearest Neightbours By Counting,CwkNN)可以有效地对混合型数据进行分类,但该算法对非平衡性数据处理效果不理想。本文在CwkNN算法的基础之上结合数据的非平衡性特点提出了三种改进的分类方法,分别为如下所述:(1)全局密度分类算法:针对CwkNN算法不能处理非平衡型数据的特点,引入一个全局密度,重新平衡数据对分类的影响度。实验发现提高了少数类样本的分类精度,降低了多数类样本的分类精度。(2)K—局部密度分类算法:针对全局密度分类算法降低了多数类样本的分类精度,引入K-局部密度,保证在提高少数类样本分类精度的同时,不会降低多数类样本的分类精度,实验证明该方法有效地提高了非平衡型数据的分类精度。(3)基于密度的边界点检测及分类算法:针对数据中的边界点,提出了基于密度的边界点检测方法,并对检测出来的边界点采用边界点三种分类方法进行分类。实验证明通过这些方法对存在边界点的非平衡数据可进行正确分类。
其他文献
信息技术的发展和互联网资源的迅速膨胀对传统的搜索引擎提出了挑战。在提高搜索引擎对信息的检索效率和用户操作的方便性方面,中文网页自动分类技术是一个有效的解决方案,是中
Peer-to-Peer(P2P)网络使得互联网中的普通用户在获取资源的同时也成为资源的提供者,聚沙成塔的效应极大地丰富了网络中的资源数量和种类,P2P网络也因为这个特点而流行起来。
文章首先对数学模型和计算机模型进行了阐述,对两种不同的建模方法分别作了详细的描述。构建了一个基于数学方程模型的实例,并求出其迭加解,较好地体现了数学模型的特征及应用。
二十世纪七十年代,Intel公司推出了第一颗微处理器芯片,嵌入式系统的概念也随之产生。随着芯片技术的飞速发展,各大公司都逐步推出了各具特色的处理器来抢占嵌入式芯片市场,A
网格是近年来迅速兴起的一个新的研究领域,它的出现标志着网络技术进入了一个崭新的时代。网格的实质是共享与协作,即在动态的、可扩充的虚拟组织中可控且平等地使用和共享资
随着网络应用的普及,网上信息量以惊人的速度增长,并且更新频繁。人们面对的问题不再是缺乏有用的信息,而是如何找到自己需要的信息。传统的通用信息检索技术满足了人们的一
语义Web服务是用本体来描述的Web服务,它的目标是使得计算机系统可以理解并解释Web服务的内容,满足智能Agent对万维网上Web服务的自动发现,调用和复合。Web服务采用SOAP(Simp
随着多媒体技术和计算机网络的迅速发展,越来越多的数字信息产品通过网络广泛传播。在给人们带来便利的同时,由此而引发的非法拷贝和恶意篡改等侵权行为也引起了人们的关注。
形式概念分析自1982年由德国的Wille教授提出以后,近年来被广泛用于软件工程、知识发现、信息检索等领域。形式概念分析中的核心数据结构——概念格通过Hasse图来表现出概念
当今社会,随着信息化与网络化的高度发展,信息安全显示出前所未有的重要性。因此,作为其中一个分支的身份识别技术也就具有相当高的研究价值与广泛的应用前景。其中,生物特征