KNN文本分类算法的研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:skybabay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的发展,人们已经进入了网络时代,出现了“信息爆炸”的局面。然而,面对丰富的信息资源的同时也面对着信息灾难,海量的信息具有杂乱性和冗余性,人们很难高效的获取所需的有效信息。文本分类技术作为一种处理海量文本信息的关键技术,近年来得到迅猛发展,在信息组织、信息检索、词义辨析、话题跟踪和数字图书馆等方面都有广泛的应用。文本分类算法有很多,比如KNN算法、支持向量机、贝叶斯分类技术等,而针对不同应用每个算法都有其各自的优缺点。KNN算法是一种经典的统计模式识别方法,也是分类效果最好的文本分类方法之一。KNN算法的思想最早是Cover和Hart在1968年提出的,之后的学者们针对KNN算法的缺点进行了各方面的改进,对训练样本进行裁剪来达到减少计算量的目的,还有对相似度计算公式进行改进等。但这些改进方法仍然存在一定问题,例如类中心法生成算法对训练样本裁剪忽略了样本分布不均的情况,对相似度计算公式的改进仍面对计算维数比较高等问题。本文主要针对KNN算法在相似度计算公式和对训练样本集裁剪的方法两个方面进行改进,分别提出了改进的M算子算法和基于标志样本生成策略改进的KNN算法。M算子算法增强了最相关的特征项在低维文本分类中的权重,提高了分类准确率和分类速度。标志样本生成算法在考虑到样本分布不均匀的情况下,通过对训练集样本进行有效的裁剪,减少计算量,进而减少分类时间,并且保证了分类的准确率。
其他文献
自然现象的模拟仿真一直是计算机图形学的研究热点,其主要研究内容是利用计算机模拟真实世界物体,以及自然现象,比如:火焰、海浪、云层等。将这些元素添加至图形场景中,可显著
随着云计算技术的迅速应用和“互联网+”的全面展开,大数据产业在传统行业和日常生活中的重要性也愈加明显。就个人而言,我们所需要管理和分享的数据量,从之前的MB逐步发展为GB
随着世界移动通讯市场的迅速发展,手机已经成为人们日常生活工作中不可缺少的通信工具。由于人与人之间的交互呈现多样化、复杂化的态势,因而单个手机已无法满足人们的需求。
国民经济的快速发展,使我国矿产资源的消费达到空前的高度,特别是最近几年采矿业的迅猛发展,对我国矿产资源的开采技术提出了更高的要求。在矿产资源的开采过程中,因矿石中含
随着网络、多媒体技术的快速发展,网络教学正逐渐成为重要的研究和应用领域,与之相适应的网络教育资源建设、网络学习管理系统也日益受到人们的重视。但目前网络教育建设中存
近年来,Web开发技术发生着日异月新的变化,人们每天面对呈指数倍增长的海量资源,他们希望将自己沟通的领域扩展到人与网络资源方面。人们将自己有价值的信息记录下来,方便日
语义决策树算法虽然可以进行语义方面更加精确的匹配,但存在硬性划分的缺陷。在连续属性语义化的过程中,将训练集中的数据映射为语义概念类中的某个概念时,它把数据严格地划
随着互联网(教育网、公众网)不断提速,计算机应用技术不断普及与发展,数字化学习(E-learning)方式由于其能够满足学习者不受时空限制,随时随地进行教学活动的优势,逐渐替代广播电
近年来,随着大型科学计算以及图形图像的快速发展,许多领域要处理的数据量已经远远超过了研究人员的数据处理能力。在体绘制领域,体数据的大规模增长,迫切期待计算设备的处理
人脸识别作为少数几个同时具有高精度和低干涉的生理特征识别方法,在数字身份认证、公共安全、多媒体等领域具有重要的应用价值。目前,在控制配合条件下的人脸识别系统能够取