论文部分内容阅读
时代的进步,信息产品的多样化,世界范围内的因特网的飞速发展,使得网络技术已经渗透到了我们生活的各个角落。现在因特网已经发展成为了世界上最大、信息最齐全的多媒体信息库。今后还将有越来越多的信息加入因特网,我们几乎可以在因特网上搜索到我们需要的任何信息。我们怎样才能从因特网上准确快速地找到我们想要的信息就是我们迫切需要考虑的。随后就提出了文本分类的概念,文本分类的出现解决了这个问题。本篇论文主要研究了基于K近邻分类算法的中文文本分类方法。其中,K近邻分类算法是目前比较常用的一种分类方法,对其进行深入的研究并进行改进有助于分类技术的进一步发展。文本分类是先定义一些文本类别,然后将要进行分类的文本分到其属于的类别,再用定义的类别标志进行标示。换句话说,就是把一些没有类别标志的文本标上其属于的类别标志。这个过程是通过计算机完成的。随着时代的进步,人们生活水平的提高,因特网也在飞速的发展,人们能够从网络上获取越来越多的多媒体信息,例如:文本信息、图片信息、声音信息等等,但是其中的中文文本信息大部分都是半结构化和无结构的中文文本信息,这就使得如何从大量的文本信息中找到用户需要的文本信息变得标记困难。所以怎样利用中文文本分类方法将这些大量的杂乱无章的中文文本信息进行有效的分类有着重要的意义。中文文本分类方法能够对大量的杂乱无章的中文文本信息进行有效的归类,并且中文文本分类已经也是进行信息过滤和引擎搜索等的基础。因此,对中文文本分类方法进行深入地研究并进行有效的改进或者提出新的能够进行更有效的分类的中文文本分类方法对人们获取需要的信息有着非常重要的意义。本文首先介绍了中文文本分类所涉及到的相关理论,如:中文的特点、中文分词、文本表示、特征选取、性能评价以及相似度计算方法。其次,在对K近邻分类算法深入分析的基础上,考虑了各类文本集数量分布不均对分类结果的影响,针对该方法在计算文本相似度时存在的不足,提出了改进的方案。新的方案引入了中心向量分类算法的思想,对K近邻分类算法的相似度计算公式进行了改进,从而提出了一种改进的K近邻分类算法。最后通过实验选出了比较适合所选语料库的特征维数和K值,并验证了对K近邻分类算法改进的有效性和可行性。