基于K-邻近和朴素贝叶斯的文本分类系统设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:gongyang12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,互联网已成为人们获取信息的主要途径,如何快速的在众多信息资源中找到自己需要的信息,成为当前一个亟待解决的问题。互联网上的信息大部分是文本数据,而文本自动分类可以有效的组织和管理文本数据,因此具有重要的研究意义和应用价值。  本文详细分析了中文文本分类的主要过程,包括文本预处理、文本表示、特征选择、分类器构建和分类器性能评估。在文本表示方面,本文重点介绍了向量空间模型,在特征选择方面,本文给出了互信息、信息增益、?2统计量等常用的特征选择方法,分类算法是分类系统的核心,本文介绍了决策树算法、K-邻近分类算法、朴素贝叶斯分类算法和支持向量机分类算法。  本文重点分析了K-邻近分类算法和朴素贝叶斯算法,并使用C++实现了基于K-邻近分类算法的分类器、基于多重伯努利模型的分类器和基于多项式模型的分类器。对于K-邻近分类器,本文讨论了如何确定K值,如何根据最近的K个文档决定测试文档类别等相关问题。对于朴素贝叶斯分类算法,本文引入了平滑技术,防止计算概率时出现零概率的情况。为了提高分类的效率和精度,本文还实现了基于文档频率的特征选取方法。最终将各功能模块结合在一起构成了一个完整的中文文本分类系统。  通过对系统的大量对比实验表明:K-邻近分类算法在 K-值等于5时具有最好的分类性能,并随着K值增加,性能在降低;多项式模型相比较其他两个分类模型在文本分类训练语料上具有最好的分类性能;伯努利模型的分类性能在这三者中最差。
其他文献
近来业务流程管理(BusinessProcessManagement,BPM)技术日趋成熟,而面向服务的架构(Services-OrientedArchitecture,SOA)及Web服务等技术也迅速发展,并成为软件业的十大热点之一,
MicroRNA(miRNA)是一种长度约21-23个核苷酸大小的单链RNA小分子,是由具有发夹结构的更长的单链RNA前体(动物microRNA前体为60~80个核苷酸大小,植物microRNA前体的长度变化较大,
云计算的出现为许多IT传统产业开辟了新的领域,为许多较为成熟的IT传统技术指明了新的发展方向,特别是随着云计算技术的一步步成熟,它渐渐变成了一股强烈的浪潮冲击着传统产
IPv6正在全球受到越来越多的重视。IPv6协议的基本框架已经逐步成熟,在越来越广泛的范围内得到实践。分布式拒绝服务攻击(DDoS)是目前一种常见而有效的网络攻击手段。但拒绝
信息抽取是指从海量的文档集合中抽取需要信息的自然语言处理技术,是自然语言处理领域中非常重要的子领域,是近十几年发展起来的新领域。它的前身是文本理解,是一种浅层的文本理
随着网络通讯技术和仿真技术的发展,基于Web的仿真是一个适应新的历史发展趋势的研究领域。这也给电厂仿真培训系统带来了新的发展机遇和开发思想。本文在对基于Web仿真的体系结构、通信机制、组态软件等内容进行分析研究的基础上,提出了基于Web培训仿真系统的实现方案,并对方案中所涉及到的关键技术进行了研究,开发了电厂操作员仿真培训软件,在浏览器上实现仿真与实际机组完全一致的操作界面,提供仿真模型图形化组态
“皮肤听声国际专题网站”是一个主题性的网站,它的建立是为了让人们更多的了解“皮肤听声”这门新兴的信息理论。由于它涉及众多学科,故此,为了使得皮肤听声技术有更进一步的发
本文主要研究在异构环境下如何实现XML文档与关系数据库之间跨平台安全高效的存储、访问和管理。   XML到关系数据库的映射模式有多种,其中基于对象-关系的映射模式充分体
云计算为e-Learing提供了更好的平台。现在多数e-Learning平台不能在公有或私有云平台与私有网络架构之间共享资源,一般需要花费额外代价去部署环境。本文提出了一种基于VPN
多目标跟踪在军事和民用方面得到了广泛的应用。多目标跟踪问题主要包括跟踪门的形成、数据关联与跟踪维持、跟踪起始与跟踪终结、漏报与虚警等等。其中数据关联是最重要最困