论文部分内容阅读
随着信息技术和互联网的飞速发展,在这个信息知识大爆炸的时代里,人们正面临着信息的飞速激涨,所以迫切需要可以很好的协助人们从这海量的信息文本中快速而准确的找到真正所需要信息的辅助工具。随着实际应用需求的不断提高,传统的单语种、单分类体系的文本分类系统已经满足不了人们的实际需求。针对这种情况研究出一套能够高效率地对海量的文本信息进行多语种多类别体系处理的自动分类系统是非常必要的。本文主要介绍了一个多语种多类别体系下文本自动分类系统的研究与实现的过程。该系统基于N-Gram、信息增益(IG)、朴素贝叶斯等算法,使用Microsoft Visual C/C++语言开发。最终实现了文本自动分类系统的模型训练、文本分类功能。其中对用户,实现全部语种及其对应全部分类体系模型的训练、某一语种对应某种分类体系模型的训练、邮件分析、邮件后台批处理、列举所有类别、删除所选类别、增加新类别等功能。系统性能分析部分,实现临时测试训练、本地邮件分析测试、邮件批处理测试等功能。经测试表明,该系统对海量文本进行处理时的速度快、对文本分类的准确率较高。该系统满足了用户的需求,大大提高了用户对文本数据处理的效率。论文首先介绍了系统开发的背景、开发的目的和系统的提出,并给出了论文结构的安排;介绍了系统实现过程中所使用的相关技术;系统设计部分,首先介绍了系统的需求分析,给出了系统的功能结构图,系统的设计原则,最后给出了系统的概要设计;系统实现部分,首先详细介绍了分类系统的核心分类器的训练过程,并结合系统各功能模块对文本分词、特征提取、分类器训练,文本分类进行详细介绍;系统测试部分,首先给出了系统取不同特征项闽值时分类结果准确率的变化图,接着详细介绍了系统的正确性测试、稳定性测试、性能测试,给出了训练文本大小与训练时间之间的关系图,并做了测试结论;最后,对本文工作做了总结,并进行了下一步工作展望。