基于K近邻算法的中文文本分类研究

来源 :安徽大学 | 被引量 : 43次 | 上传用户：caoda0512116

【摘要】

：

时代的进步,信息产品的多样化,世界范围内的因特网的飞速发展,使得网络技术已经渗透到了我们生活的各个角落。现在因特网已经发展成为了世界上最大、信息最齐全的多媒体信息

【作者】

：

徐晓艳

【出处】

：

安徽大学

【发表日期】

：

2012年01期

【关键词】

：

文本分类 K近邻相似度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

时代的进步,信息产品的多样化,世界范围内的因特网的飞速发展,使得网络技术已经渗透到了我们生活的各个角落。现在因特网已经发展成为了世界上最大、信息最齐全的多媒体信息库。今后还将有越来越多的信息加入因特网,我们几乎可以在因特网上搜索到我们需要的任何信息。我们怎样才能从因特网上准确快速地找到我们想要的信息就是我们迫切需要考虑的。随后就提出了文本分类的概念,文本分类的出现解决了这个问题。本篇论文主要研究了基于K近邻分类算法的中文文本分类方法。其中,K近邻分类算法是目前比较常用的一种分类方法,对其进行深入的研究并进行改进有助于分类技术的进一步发展。文本分类是先定义一些文本类别,然后将要进行分类的文本分到其属于的类别,再用定义的类别标志进行标示。换句话说,就是把一些没有类别标志的文本标上其属于的类别标志。这个过程是通过计算机完成的。随着时代的进步,人们生活水平的提高,因特网也在飞速的发展,人们能够从网络上获取越来越多的多媒体信息,例如：文本信息、图片信息、声音信息等等,但是其中的中文文本信息大部分都是半结构化和无结构的中文文本信息,这就使得如何从大量的文本信息中找到用户需要的文本信息变得标记困难。所以怎样利用中文文本分类方法将这些大量的杂乱无章的中文文本信息进行有效的分类有着重要的意义。中文文本分类方法能够对大量的杂乱无章的中文文本信息进行有效的归类,并且中文文本分类已经也是进行信息过滤和引擎搜索等的基础。因此,对中文文本分类方法进行深入地研究并进行有效的改进或者提出新的能够进行更有效的分类的中文文本分类方法对人们获取需要的信息有着非常重要的意义。本文首先介绍了中文文本分类所涉及到的相关理论,如：中文的特点、中文分词、文本表示、特征选取、性能评价以及相似度计算方法。其次,在对K近邻分类算法深入分析的基础上,考虑了各类文本集数量分布不均对分类结果的影响,针对该方法在计算文本相似度时存在的不足,提出了改进的方案。新的方案引入了中心向量分类算法的思想,对K近邻分类算法的相似度计算公式进行了改进,从而提出了一种改进的K近邻分类算法。最后通过实验选出了比较适合所选语料库的特征维数和K值,并验证了对K近邻分类算法改进的有效性和可行性。

其他文献

新课程背景下语文小组讨论式教学的有效性

<正>先学后教作为一种先进的教学模式,和先教后学这种传统的教学模式是相对的。它强调教学应该从学生的"学"开始,学就是鼓励学生自学,在学生自学的基础上由教师进行讲评和知

期刊

小组讨论式教学新课程背景下学生自学

国医大师李辅仁治疗73例老年性便秘用药特点的回顾性探析

[目的]通过对国医大师李辅仁治疗老年性便秘病历的收集整理分析,总结归纳出国医大师李辅仁在治疗老年性便秘中的用药特点。[方法]采用门诊病历收集、录入与系统分析结合的方

学位

便秘老年用药特点中医

如何提高初中语文早读课的质量

语文作为一门语言学科,朗读是其学习过程中必不可少的环节。主要论述如何提高初中语文教学早读课的质量。

期刊

语文教学早读课质量提升

基于时频分析的旋转机械故障诊断方法研究与应用

旋转机械是生产领域中十分重要的机械设备,由于旋转机械激励源多、性质复杂,其振动信号往往是非平稳的多分量信号,其不同的非平稳特性往往对应不同的机械故障。为了更好的进

学位

旋转机械故障诊断时频分析同步平均多尺度熵

志愿者精神及其培育途径研究

近年来,我国的各大展会赛会凸显了志愿服务的作用，使得全社会掀起了参与志愿服务的热潮。志愿者精神以其自愿性、无偿性、公益性和奉献性等特质，对推动人类社会的发展、道德的

学位

志愿者志愿者精神志愿服务

共青团助力留守儿童增权的路径研究——以某团委支持下的自组织行动为例

留守儿童是在中国城市化进程中产生的弱势群体,也是共青团帮扶的青少年对象,他们迫切需要增权,共青团在助力留守儿童增权的道路上要注意策略。"寻找四叶草"行动在实践中注意

期刊

共青团留守儿童增权“寻找四叶草”

我国养老院经营模式探讨

随着我国人口老龄化趋势的日渐加剧,养老问题倍受社会关注,我国已经连续几年将养老问题作为改善民生的重要议题。然而,在我国人们比较关注的是养老金的问题,很少有人关注养老

学位

人口老龄化养老院社区养老经营模式连锁经营

基于全寿命周期的绿色建筑优选决策模型研究

在我国经济高速发展的今天,可持续发展成为今后国家经济发展研究的战略重点,建筑行业也不例外。随着可持续发展在各行各业的深入,特别是我国城镇化建设的推进,绿色建筑开始逐

学位

绿色建筑全寿命周期费用效益分析决策模型

当前高校医学毕业生基层就业问题及对策研究

近年来随着我国经济的快速发展,城乡人民生活水平逐步提高,社会对医学人才的需求量逐步增加,农村等不发达地区卫生技术人才匮乏尚未得到根本改变,急需大量卫生技术人才,医学

学位

医学毕业生基层就业医疗改革长效机制

浅谈幼儿良好交往能力的培养

幼儿园培养幼儿交往能力,不仅仅是幼儿智力、心理健康发展的重要保证,同时也为他们今后的生存发展奠定了一定的基础。我们应采用有效策略,重视幼儿交往能力的培养,促进幼儿健

期刊

幼儿交往能力培养

基于K近邻算法的中文文本分类研究

其他学术论文