基于K近邻算法的中文文本分类研究

来源 :安徽大学 | 被引量 : 43次 | 上传用户:caoda0512116
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时代的进步,信息产品的多样化,世界范围内的因特网的飞速发展,使得网络技术已经渗透到了我们生活的各个角落。现在因特网已经发展成为了世界上最大、信息最齐全的多媒体信息库。今后还将有越来越多的信息加入因特网,我们几乎可以在因特网上搜索到我们需要的任何信息。我们怎样才能从因特网上准确快速地找到我们想要的信息就是我们迫切需要考虑的。随后就提出了文本分类的概念,文本分类的出现解决了这个问题。本篇论文主要研究了基于K近邻分类算法的中文文本分类方法。其中,K近邻分类算法是目前比较常用的一种分类方法,对其进行深入的研究并进行改进有助于分类技术的进一步发展。文本分类是先定义一些文本类别,然后将要进行分类的文本分到其属于的类别,再用定义的类别标志进行标示。换句话说,就是把一些没有类别标志的文本标上其属于的类别标志。这个过程是通过计算机完成的。随着时代的进步,人们生活水平的提高,因特网也在飞速的发展,人们能够从网络上获取越来越多的多媒体信息,例如:文本信息、图片信息、声音信息等等,但是其中的中文文本信息大部分都是半结构化和无结构的中文文本信息,这就使得如何从大量的文本信息中找到用户需要的文本信息变得标记困难。所以怎样利用中文文本分类方法将这些大量的杂乱无章的中文文本信息进行有效的分类有着重要的意义。中文文本分类方法能够对大量的杂乱无章的中文文本信息进行有效的归类,并且中文文本分类已经也是进行信息过滤和引擎搜索等的基础。因此,对中文文本分类方法进行深入地研究并进行有效的改进或者提出新的能够进行更有效的分类的中文文本分类方法对人们获取需要的信息有着非常重要的意义。本文首先介绍了中文文本分类所涉及到的相关理论,如:中文的特点、中文分词、文本表示、特征选取、性能评价以及相似度计算方法。其次,在对K近邻分类算法深入分析的基础上,考虑了各类文本集数量分布不均对分类结果的影响,针对该方法在计算文本相似度时存在的不足,提出了改进的方案。新的方案引入了中心向量分类算法的思想,对K近邻分类算法的相似度计算公式进行了改进,从而提出了一种改进的K近邻分类算法。最后通过实验选出了比较适合所选语料库的特征维数和K值,并验证了对K近邻分类算法改进的有效性和可行性。
其他文献
<正>先学后教作为一种先进的教学模式,和先教后学这种传统的教学模式是相对的。它强调教学应该从学生的"学"开始,学就是鼓励学生自学,在学生自学的基础上由教师进行讲评和知
[目的]通过对国医大师李辅仁治疗老年性便秘病历的收集整理分析,总结归纳出国医大师李辅仁在治疗老年性便秘中的用药特点。[方法]采用门诊病历收集、录入与系统分析结合的方
语文作为一门语言学科,朗读是其学习过程中必不可少的环节。主要论述如何提高初中语文教学早读课的质量。
旋转机械是生产领域中十分重要的机械设备,由于旋转机械激励源多、性质复杂,其振动信号往往是非平稳的多分量信号,其不同的非平稳特性往往对应不同的机械故障。为了更好的进
近年来,我国的各大展会赛会凸显了志愿服务的作用,使得全社会掀起了参与志愿服务的热潮。志愿者精神以其自愿性、无偿性、公益性和奉献性等特质,对推动人类社会的发展、道德的
留守儿童是在中国城市化进程中产生的弱势群体,也是共青团帮扶的青少年对象,他们迫切需要增权,共青团在助力留守儿童增权的道路上要注意策略。"寻找四叶草"行动在实践中注意
随着我国人口老龄化趋势的日渐加剧,养老问题倍受社会关注,我国已经连续几年将养老问题作为改善民生的重要议题。然而,在我国人们比较关注的是养老金的问题,很少有人关注养老
在我国经济高速发展的今天,可持续发展成为今后国家经济发展研究的战略重点,建筑行业也不例外。随着可持续发展在各行各业的深入,特别是我国城镇化建设的推进,绿色建筑开始逐
近年来随着我国经济的快速发展,城乡人民生活水平逐步提高,社会对医学人才的需求量逐步增加,农村等不发达地区卫生技术人才匮乏尚未得到根本改变,急需大量卫生技术人才,医学
幼儿园培养幼儿交往能力,不仅仅是幼儿智力、心理健康发展的重要保证,同时也为他们今后的生存发展奠定了一定的基础。我们应采用有效策略,重视幼儿交往能力的培养,促进幼儿健