基于K-邻近和朴素贝叶斯的文本分类系统设计与实现

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户:gyf2033
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,互联网已成为人们获取信息的主要途径,如何快速的在众多信息资源中找到自己需要的信息,成为当前一个亟待解决的问题。互联网上的信息大部分是文本数据,而文本自动分类可以有效的组织和管理文本数据,因此具有重要的研究意义和应用价值。本文详细分析了中文文本分类的主要过程,包括文本预处理、文本表示、特征选择、分类器构建和分类器性能评估。在文本表示方面,本文重点介绍了向量空间模型,在特征选择方面,本文给出了互信息、信息增益、2?统计量等常用的特征选择方法,分类算法是分类系统的核心,本文介绍了决策树算法、K-邻近分类算法、朴素贝叶斯分类算法和支持向量机分类算法。本文重点分析了K-邻近分类算法和朴素贝叶斯算法,并使用C++实现了基于K-邻近分类算法的分类器、基于多重伯努利模型的分类器和基于多项式模型的分类器。对于K-邻近分类器,本文讨论了如何确定K值,如何根据最近的K个文档决定测试文档类别等相关问题。对于朴素贝叶斯分类算法,本文引入了平滑技术,防止计算概率时出现零概率的情况。为了提高分类的效率和精度,本文还实现了基于文档频率的特征选取方法。最终将各功能模块结合在一起构成了一个完整的中文文本分类系统。通过对系统的大量对比实验表明:K-邻近分类算法在K-值等于5时具有最好的分类性能,并随着K值增加,性能在降低;多项式模型相比较其他两个分类模型在文本分类训练语料上具有最好的分类性能;伯努利模型的分类性能在这三者中最差。
其他文献
建筑经济学里探究的两个重要话题就是建筑生产和建筑产物,这两个方面关系到目前建筑市场的发展。从建筑经济学的角度研讨建筑产品和建筑生产,对建筑市场的发展有重要意义。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
通过改变麦芽糖化过程中的普鲁兰酶添加量,研究其对麦芽啤酒风味物质产量的影响。经固相微萃取气相色谱(SPME-GC)检测分析,结果表明,添加普鲁兰酶能够降低啤酒中的醇酯比,当添
为破解拆迁难题,在对莆田市征迁情况进行调研的基础上,客观全面地分析了莆田市征迁存在的困难和问题,针对性地提出了具有全局性和可操作性的建议和对策。
汇聚了中外主流平板电视制造企业,国美、苏宁大型家电连锁渠道,工信部等相关政府部门领导、业界专家的“2009年第五届中国平板电视市场发展高层论坛”日前在京举行。论坛主办