基于K-近邻算法的文本自动分类

来源 :海南大学 | 被引量 : 0次 | 上传用户:sunplusit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的快速发展和Internet的普及与应用,互联网上的电子文档信息急剧增加。面对如此海量的信息,人们迫切需要寻找一条能够快速、准确获得所需信息的途径。而文本自动分类作为信息过滤,信息检索,搜索引擎和数据挖掘等领域的技术基础,有着广泛的应用前景,因此成为人们研究的热点问题。 本文从文本预处理,文本的向量模型表示,特征降维方式和分类算法几个部分较系统的研究了文本自动分类。 首先,研究和探讨了文本自动分类中所涉及到的主要技术,包括文本预处理,文本表示模型,特征项权重方法,特征降维方式,分类算法和分类结果评估方法等。 其次,对几种常用的特征选择方法(文档频率DF,互信息MI,x<2>统计CHI,相关系数统计CC,信息增益IG)的优缺点进行了剖析,并通过实验比较了它们的分类性能,结果表明文档频率,X<2>统计,CC统计的分类性能相对较好,互信息效果较差,这是由于互信息没考虑到词频这个因素,导致它对低频词有偏重。基于以上考虑,本文提出了一种MI+DF组合的特征选择方法,利用DF过滤掉低于一定阈值的低频词,以消除MI对低频词的倚重,从而改进了传统的互信息法。实验表明这个组合的特征选择方法在分类精度上比互信息有了很大的提高。 再次,研究了三种常用的文本分类算法,即类中心向量法,贝叶斯统计法和K近邻法,分析了它们的分类思想和优缺点,并通过实验测试了它们的分类性能。实验结果表明K近邻法是一种分类精度较高,性能较好的算法。 最后,使用Java编程语言和Eelipse开发平台自行设计并实现了一个实用性较强的文本分类实验系统,能够建立分类模型,并打开已建立好的分类模型进行分类测试。利用该系统可以进行特征选择、分类算法研究,也可以对不同的语料库进行训练和测试,为今后的进一步研究提供了一个实验平台。
其他文献
H.264/AVC是由ITU-T的VCEG(视频编码专家组)和ISO的MPEG(运动图像专家组)共同制定的新的视频编码标准。H.264使用很多先进的视频编码方法,与现有的视频编码标准相比,它可以获得
从雷达系统开发本身以及仿真发展趋势考虑,开展雷达系统多粒度建模研究具有十分重要的意义。从不同的粒度建立雷达系统模型,能够有效的缓解仿真复杂度与效率间的矛盾,满足不同需
无线传感器网络是当前在国际上备受关注的、涉及多学科高度交叉、知识高度集成的热点研究领域。由于无线传感器网络通常由大量密集的传感器节点构成,节点的能源、计算能力和
近几年,计算智能技术发展迅速,新算法层出不穷。计算智能方法在各个领域的应用有目共睹,取得了大量的研究成果。而对于配方产品相关的行业,传统的配方设计模式过多地依赖于人
伴随着计算机技术的不断开拓和对人类感知机理研究的不断发展,数字图像识别技术已经成为数字图像处理技术中一个重要的研究方向,其应用范围几乎涵盖了人类所涉及到的所有领域
随着人们对影像技术需求的不断提高,多路视频图像同步播放问题应运而生。而两路视频同步视频的同步播放作为多路同步播放的基础成为了本课题的出发点。同时,基于低成本、低功耗
随着计算机技术和通信技术的迅速发展以及Internet的不断扩展,嵌入式系统得到了越来越广泛的应用,成为当前IT产业关注的焦点之一。嵌入式系统指以应用为中心,以计算机技术为
随着社会的发展,嵌入式的应用在人们的生活当中扮演着越来越重要的角色。但是,目前的嵌入式应用还是以单核处理器为主,即单独使用ARM、PowerPC、DSP等处理器来进行相关处理。
静力载荷试验是工程建设中确定基桩和地基承载力最直接、可靠的测试方法,静载仪常用于静力载荷试验中的自动测试,但现有静载仪线缆笨重,使用起来极不方便,在静力载荷试验中给