多语种多类别体系下文本自动分类系统的研究与实现

来源 :东北大学 | 被引量 : 3次 | 上传用户:yueming1030
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和互联网的飞速发展,在这个信息知识大爆炸的时代里,人们正面临着信息的飞速激涨,所以迫切需要可以很好的协助人们从这海量的信息文本中快速而准确的找到真正所需要信息的辅助工具。随着实际应用需求的不断提高,传统的单语种、单分类体系的文本分类系统已经满足不了人们的实际需求。针对这种情况研究出一套能够高效率地对海量的文本信息进行多语种多类别体系处理的自动分类系统是非常必要的。本文主要介绍了一个多语种多类别体系下文本自动分类系统的研究与实现的过程。该系统基于N-Gram、信息增益(IG)、朴素贝叶斯等算法,使用Microsoft Visual C/C++语言开发。最终实现了文本自动分类系统的模型训练、文本分类功能。其中对用户,实现全部语种及其对应全部分类体系模型的训练、某一语种对应某种分类体系模型的训练、邮件分析、邮件后台批处理、列举所有类别、删除所选类别、增加新类别等功能。系统性能分析部分,实现临时测试训练、本地邮件分析测试、邮件批处理测试等功能。经测试表明,该系统对海量文本进行处理时的速度快、对文本分类的准确率较高。该系统满足了用户的需求,大大提高了用户对文本数据处理的效率。论文首先介绍了系统开发的背景、开发的目的和系统的提出,并给出了论文结构的安排;介绍了系统实现过程中所使用的相关技术;系统设计部分,首先介绍了系统的需求分析,给出了系统的功能结构图,系统的设计原则,最后给出了系统的概要设计;系统实现部分,首先详细介绍了分类系统的核心分类器的训练过程,并结合系统各功能模块对文本分词、特征提取、分类器训练,文本分类进行详细介绍;系统测试部分,首先给出了系统取不同特征项闽值时分类结果准确率的变化图,接着详细介绍了系统的正确性测试、稳定性测试、性能测试,给出了训练文本大小与训练时间之间的关系图,并做了测试结论;最后,对本文工作做了总结,并进行了下一步工作展望。
其他文献
人名消歧是信息检索、数据挖掘等领域非常亟需解决的问题之一。目前,学术界对于人名消歧的研究已经取得了显著的成果,提出了很多人名消歧的算法。但是由于应用的领域的不同,
随着互联网的普及,互联网安全问题显得越来越突出。如何及时发现、识别各种网络威胁并保证系统安全运行已经成为当前研究的关注点之一。入侵检测系统(Intrusion Detection Sy
网格中的数据管理以命名的透明性、位置的透明性、协议的透明性、时间的透明性为目标,建立一个网格环境下数据一体化访问、存储、传输、维护的环境。它面向底层屏蔽网格中的
当前在消化道的体内极端环境中,医患双方都迫切需要提供可操控的医疗检测用可吞服式微型诊查工具。本课题主要研究医用胶囊内窥镜在人体内的无线定位,并给出了定位系统硬件电
随着Internet的发展和网上信息的愈加丰富,人们越来越依赖于网络获取需要的大量信息,搜索引擎正是在这样的背景下应运而生。然而,作为通用的信息提供工具,面对海量的互联网信
蒙古文命名实体识别是蒙古文自然语言处理的基础课题,被广泛地应用于蒙古文信息抽取、机器翻译、文本聚类、信息检索等领域。而在蒙古文命名实体识别中人名所占的比例最大,其
RSS也叫聚合RSS,是在线共享内容的一种简易方式。传统的网络爬虫对实时性要求不是很高,但是RSS的特点是时效性强,为了向用户提供高时效性的个性化服务,服务器需要以最短的延
话题模型(Topic model)是目前流行的一种图模型(Graph model)的.其严格遵守贝叶斯概率框架,是一种完全的贝叶斯模型。话题模型作为一种产生式模型,具有非监督学习,能够利用大
2008年8月,IETF NetLMM标准化了一种基于网络的移动性管理协议,称之为代理移动IPv6(PMIPv6)。PMIPv6是基于网络的移动性管理协议,MN不需要参与任何的移动性信令管理,网络中的
遗传算法发展到现在,仍然是演化计算领域研究的热点,对旅行商问题的求解是其应用之一。传统的遗传算法对于大规模的旅行商问题不再适用,必须开发新的算法,或对现有的相对来说